人类最后的考试

浮生若梦 为欢几何 踏实做事 有趣做人
打印 被阅读次数

八卦大S津津乐道。AI不能聊?,

做调研报告的福音,OpenAI 最新发布Deep Research

自己查资料很辛苦,DS可做大量的基础调查,分析,并做出总结报告,

?

===============

考试成绩

人类最后的考试(HLE)是一项全球性的合作项目,由来自 50 个国家 500 多所院校的近千名学科专家提供试题,其中大部分是教授、研究人员和研究生学位获得者。

由3,000 多道选择题和简答题,涉及从语言学到火箭科学、从古典文学到生态学等 100 多个学科

这一套题用来测试各种AI模型的水平,有两个分数,一个是准确性。一个校准错误。

准确性。所有前沿模型在人类上次考试中的准确性都很低,这凸显了在缩小当前法学硕士与专家级学术能力在封闭式问题上的差距方面还有很大的改进空间。

校准错误。鉴于人类上次考试的表现较低,应该对模型进行校准,认识到它们的不确定性,而不是自信地提供不正确的答案,表明虚构/幻觉。为了测量校准,我们提示模型提供从 0% 到 100% 的答案及其置信度%.

?
• 等到了95%就不需要人了。 三花锦鲤 - ♂ 给 三花锦鲤 发送悄悄话 (0 bytes) (2 reads) 02/03/2025  06:06:19

• 如果及格基本上就可以秒杀90%人了 未完的歌 - ♂ 给 未完的歌 发送悄悄话 未完的歌 的博客首页 (0 bytes) (0 reads) 02/03/2025  06:08:34

• 你现在被AI迷住不可救药了, 问过AI一个问题, 答的不对 weihua2021 - ♂ 给 weihua2021 发送悄悄话 (0 bytes) (3 reads) 02/03/2025  06:06:28

• 问的那个AI?啥版本? 未完的歌 - ♂ 给 未完的歌 发送悄悄话 未完的歌 的博客首页 (0 bytes) (0 reads) 02/03/2025  06:09:00

• ai特别适合弄那些没有明确答案的东西 lzr - 给 lzr 发送悄悄话 lzr 的博客首页 (143 bytes) (5 reads) 02/03/2025  06:13:19

• 要认真的话得进行双盲比较,而且得是新题,因为稍微有名一点的东西可能已经被训练进去了 akuan - ♂ 给 akuan 发送悄悄话 (0 bytes) (4 reads) 02/03/2025  06:08:35

• 日光之下没新事儿 三花锦鲤 - ♂ 给 三花锦鲤 发送悄悄话 (0 bytes) (0 reads) 02/03/2025  06:09:17

• 前几天我贴了一个门萨测试,那个人与门萨会员一起设计新题,让AI们去做, 未完的歌 - ♂ 给 未完的歌 发送悄悄话 未完的歌 的博客首页 (0 bytes) (2 reads) 02/03/2025  06:10:26

• 说这些没有用,GPT好不好DS好不好都不是问题关键,而是AI是不是需要这样高端芯片和大投入,是不是以后美元的潜在锚定 一笑拉 - ♀ 给 一笑拉 发送悄悄话 (87 bytes) (21 reads) 02/03/2025  06:09:56 (1)

• 关键是股市,退休的钱够了吗? 外乡人 - ♂ 给 外乡人 发送悄悄话 外乡人 的博客首页 (0 bytes) (1 reads) 02/03/2025  06:12:39

• 哈哈,烦死了,我这些天都不去看,,, 一笑拉 - ♀ 给 一笑拉 发送悄悄话 (0 bytes) (0 reads) 02/03/2025  06:17:07

• 长线不看短时间的涨涨落落 瓜籽 - ♂ 给 瓜籽 发送悄悄话 (0 bytes) (0 reads) 02/03/2025  06:13:12

• 随着AI的发展,今后高算力依然是必须的。在算力面前,绞尽脑汁优化的算法没啥特别的价值。这么多年,计算机的发展 未完的歌 - ♂ 给 未完的歌 发送悄悄话 未完的歌 的博客首页 (48 bytes) (6 reads) 02/03/2025  06:13:24

• 这是你说的,TikTok时候也说算法很简单,你研究过,我就佩服你的自信 一笑拉 - ♀ 给 一笑拉 发送悄悄话 (0 bytes) (1 reads) 02/03/2025  06:15:42

• 不是算法简单,而是算力是关键,你知道那些搞绞尽脑汁搞算法优化的,是为了啥吗?就是为了节省一点点算力。286时代的CPU 未完的歌 - ♂ 给 未完的歌 发送悄悄话 未完的歌 的博客首页 (99 bytes) (5 reads) 02/03/2025  06:19:23

• 我不知道这些,这种对我来说太局部,但你也不用spin,你当时说的TikTok不卖的算法,你研究过很简单,先说我没有截屏 一笑拉 - ♀ 给 一笑拉 发送悄悄话 (24 bytes) (0 reads) 02/03/2025  06:23:30

• 有一种说法,美元的锚定是芯片。未来算力仍然是关键的。 akuan - ♂ 给 akuan 发送悄悄话 (0 bytes) (1 reads) 02/03/2025  06:16:57

• 还有说虚拟货币的,现在还是在寻找方向吧 一笑拉 - ♀ 给 一笑拉 发送悄悄话 (0 bytes) (0 reads) 02/03/2025  06:18:33

• 估计今天还会跌。近期主打关税, DS的结果是川普要更严格芯片管制。估计拜登出台的分三级要实施了 遥遥 - 给 遥遥 发送悄悄话 遥遥 的博客首页 (0 bytes) (1 reads) 02/03/2025  06:18:36

• 以后是不是学校不再要求背各种公式文章了?连外语好像都没有必要学了 十块糍饭糕 - ♂ 给 十块糍饭糕 发送悄悄话 (0 bytes) (1 reads) 02/03/2025  06:12:00

• 我们人类的知识,我们个人的知识,90%以上就如传话筒一样,在复读而已。 未完的歌 - ♂ 给 未完的歌 发送悄悄话 未完的歌 的博客首页 (0 bytes) (1 reads) 02/03/2025  06:17:21

• 以前可以聊,还聊很多,因为没有DS,没有引起吵架,,现在草木皆兵了, 有个用户名 - ♀ 给 有个用户名 发送悄悄话 有个用户名 的博客首页 (0 bytes) (0 reads) 02/03/2025  06:12:37

• 曲高和寡 瓜籽 - ♂ 给 瓜籽 发送悄悄话 (0 bytes) (3 reads) 02/03/2025  06:13:40

• 你终于来了,昨天呼叫你来着 未完的歌 - ♂ 给 未完的歌 发送悄悄话 未完的歌 的博客首页 (0 bytes) (3 reads) 02/03/2025  06:14:53

• 昨天我来了,问了五花猪包粽子,然后煮了一大锅粽子,这季节买的粽叶小,。。。 瓜籽 - ♂ 给 瓜籽 发送悄悄话 (0 bytes) (3 reads) 02/03/2025  06:16:56

• 帮我问一个问题,我想证实一下,是否是真的。家坛人那些人都沉默了 未完的歌 - ♂ 给 未完的歌 发送悄悄话 未完的歌 的博客首页 (494 bytes) (2 reads) 02/03/2025  06:22:56

• 现在知道外乡人也可以测试了,以后也可以找他:D 有个用户名 - ♀ 给 有个用户名 发送悄悄话 有个用户名 的博客首页 (0 bytes) (1 reads) 02/03/2025  06:21:19

• 他问了,换了一个词,不敢直面,哈哈 未完的歌 - ♂ 给 未完的歌 发送悄悄话 未完的歌 的博客首页 (0 bytes) (1 reads) 02/03/2025  06:23:41

• 那也没必要刻意去融入和迎合,一时热闹,虚假繁荣。若非一直勉强自己总会迎合不下去的,谁又真的会一直勉强自己呢 有个用户名 - ♀ 给 有个用户名 发送悄悄话 有个用户名 的博客首页 (0 bytes) (2 reads) 02/03/2025  06:17:38

• 我不管ChatGPT和DS谁好谁坏,谁抄谁,我都用,多选择比少选择好,我小气,不交钱。 瓜籽 - ♂ 给 瓜籽 发送悄悄话 (0 bytes) (2 reads) 02/03/2025  06:20:42

• 就等着发钱了 heka - ♀ 给 heka 发送悄悄话 heka 的博客首页 (0 bytes) (0 reads) 02/03/2025  06:15:55

• 有比较合适的PAI模型嘛,个人可以自智慧养成。 三花锦鲤 - ♂ 给 三花锦鲤 发送悄悄话 (0 bytes) (0 reads) 02/03/2025  06:20

登录后才可评论.