OpenAI新模型到达博士水平?我找几位博士测试了一下

09-14 294阅读 8评论

今日清晨,OpenAI 毫无预告地发布了业界等待已久的新模型。


此前,咱们从 CEO 奥特曼的推文中猜想这个模型会叫 “ 草莓 ”。



而在实践发布的时分,这个模型的名字叫 OpenAI o1。



奥特曼对这个模型的点评是:他们迄今为止最强、最共同的模型。



在官方给出的一组数据图中,咱们能很显着地看到,o1 模型在世界数学奥林匹克比赛、编程比赛以及博士等级的科学问题上有很大进步。


图中最左边为 GPT-4o,中心是现在现已开放了的预览版 o1,最右边高高的赤色柱子为满血版 o1。咱们能够看到,根本每一项,o1 比起自己的长辈来说,都是挨近 8 倍的提高。



如果把这些测验效果拆开来,新 o1 也几乎是在各种学科、各种范畴都全量、全面、全方位地逾越 4o 版别。



而最可怕的是:OpenAI 说自己专门请了博士专家一同答题,效果在博士等级的测验效果上,发现 o1 答题分数均超过了博士专家,o1 得分 78,人类得分 69.7。


所以,人类落花流水了?


为了能大约了解 o1 模型( 预览版 )的实在才能究竟几许,知危修改部约请了三位闻名院校博士来向 o1 模型发问,并请他们对 o1 的答复进行打分。( 订阅 ChatGPT Plus 会员每周有 30 次向 o1 预览版模型发问的时机 )


为了确保多样性和客观性,咱们约请的博士别离涉猎生物学、物理学、资料化学。


其间,南京大学在读物理学博士崔博士对 o1 模型的点评是最高的,他以为 o1 现已达到了 60~80 分( 满分 100 分)的水平。


甚至在某些问题上,他以为答复能够给到 90 分。


崔博士的研讨方向是量子光学,所以他给出的第一个问题是:远距离羁绊光子分发,有什么战胜白噪声的方法?


考虑 9 秒后,o1 就给出了 10 点可行的方法。



崔博士对答复的点评为:“ 答案罗列得全面,契合现有最新研讨进展,对常识储藏缺乏的人或许供给调研方向,可是或许对高等级专业人员没有供给真实有用的信息,归于科普等级的答案。


评分方面,崔博士以为 o1 的这次答复能够打 80 分,他指出,o1 答复中提到的自适应光学的方向是本年最新的 Science 效果,答复是具有先进性的。


随后,崔博士追问了“ 是否能够扩展到量子自适应光学?”这一问题,o1 考虑 19 秒后给出了作答。



崔博士对这个答复的点评是:“ 能够给到 90 分,这个答复对我也很有提示性,尽管不详细,但对咱们来说,只需求指个或许的方向,剩余的咱们自己来调研考虑。”


崔博士指出,“ 他的答复有很多是我的常识单薄区了,有的概念我也仅仅简略了解,但他说的我以为都是有道理的,所以我以为仍是能够的。”


比较之下,关于老版别模型相同问题的作答,崔博士的点评是不及格或是 60 分。


不过,在关于触及试验细节的 “ 依据非线性相互作用发生的高纯度解相关单光子的自相关函数,别离在接连泵浦和脉冲泵浦的状况下,怎么丈量?” 这一问题上,崔博士以为 o1 的答复中规中矩,只能给 75 分。


总的来讲,崔博士以为,在物理方面,o1 的体现算是不错的,和老版比下来提高根本在 20 分左右。


下面,咱们来看看北京大学在读资料化学的 K 博士对 o1 模型的点评。


K 博士环绕 Fe-N4 资料问了一系列的问题,o1 给了很长的一串答复,为了精简篇幅,咱们这儿只展现了部分问题和效果。



全体测验之后,K 博士给出的点评也差不多:或许有研讨生水平,可是深化的认知和给计划的才能比较弱,首要仍是针对已知内容作答。


比方问到怎么调理 Fe-N4,o1 能够说出依据电子态调理,但你要是问它那该怎么调理,它就有点卡壳了。尽管比较 4o 模型没那么胡言乱语,但详细的问题上他俩都给不了太多主张,老版别 4o 是损失细节胡说,新版别 o1 则是才能有限就会词穷。


下面,咱们再看看清华大学在读生物学的信博士的点评,他的发问是:“ 怎么从质谱数据会集区别赖氨酸残基的乳酰化和羧乙基润饰?”


o1 也给了一段十分长的答复,有些像总述,后边还贴了参考文献。



但出人意料的是,当咱们把这个答复交给信博士时,他看完就发现有些不对劲儿。


倒不是 AI 答复得全错,而是 AI 在参考文献里乱编,这论文压根不存在!


不过,整体来,信博士仍是觉得比之前的 AI 强了不少,最少了解才能是肉眼可见地增长了,编的时分也编得很像。



实践上,这个测验的效果并不出乎知危修改部的意料,由于依据官方给出的数据来看,o1 在物理上的分数达到了 92.8,现已远超其他两门学科,这或许便是崔博士对它比较看好的原因。



归纳来讲,真要提到逾越专业博士水平,三位博士们以为还得慢慢。


崔博士直言,在实际科研工作中,大都状况学者们都还得自己着手,AI 只能供给大致方向,因而花钱用这样的 AI 含义不大。


他表明更引荐本科生挑选这个 AI,要是在硕博阶段,这个 AI 的答复其实并不契合导师规范,组会上肯定要挨批。


清华的信博士也相同持这种观点,且不说 AI 的错觉假造文献问题,就专业程度而言,AI 的答复也只能欺骗大同行,也便是同一大学科里边方向不同的人群;而在小同行,也便是专业研讨这个方向的人眼里,AI 的缺点仍是十分显着的。


北大 K 博士则谈得更深化,他以为这个 AI 只能说在认知上有了硕士生的水平,但也仅仅作为一个补缀匠,谈不上说出什么创造性的效果。就创造性这一点来说,AI 是远远比不上硕博的水平的,这也是 AI 需求处理的重要问题。


在博士们的点评里,咱们好像能抓到一个关键:o1 模型之所以相对更强,是由于他有了更高维的认知和考虑形式。


这,也是 o1 本次更新的关键。在 OpenAI 关于 o1 模型原了解说的文章中,他们表明 o1 变强首要是他们用上了长思想链(CoT,Chain of thought),而不是传统的提示链(Prompt chain)


第一眼看上去有点懵,说人话便是,这个大模型改变了以往那种你问我答的考虑方法。


在曾经的形式下,大模型的问答就跟下认识出答案相同,比方你问我天是啥色彩,这问题我想都不想,秒答蓝色。这实践上需求我本来就知道这个常识点,然后给你直接反响就完了。


但这个长思想链就相当于,我不只要知道蓝色是个啥,还能自己推一遍为啥是蓝色,什么大气散射,光谱波长都要考虑进去。



这就需求 AI 有实打实的构建逻辑,推理证明的才能,换句话说,不只要长脑子,还要动脑子。


尽管思想链这个概念是 2022 年谷歌提出来的,但 OpenAI 这次是第一个完成的。


实操进程中,现在你与 o1 模型对话,除了收成答案,还能够挑选打开,看它回答问题时的思想逻辑,它的考虑是具象化的,而不是黑盒。


咱们拿崔博士发问的“远距离羁绊光子分发,有什么战胜白噪声的方法?”这一问题为例,o1 模型的考虑进程如下:



当咱们问询崔博士这个考虑进程是否合理时,崔博士表明:“ 合理,达到了博士等级,仍是高年级博士等级。”


所以,o1 模型之所以会在物理学问答上面体现得更超卓,便是由于他的思想链达到了博士的水准,他会像博士相同考虑物理问题。


同理,o1 模型在生物学、化学方面的体现相对欠安,很有或许是思想链还没练习到最佳状况,可是从物理学问题的体现来看,比及练习益发老练,o1 会变得更强,咱们能够等待一下 o1 模型正式版的发布。


哦,对了,最后放一个风趣的小彩蛋。


思想链尽管使得 o1 模型能像博士相同考虑,但好像在根底问题上练习得仍是不行全面,咱们发现他在简略问题上仍然会犯初级过错。



他考虑了 12 秒之后,自傲地告知咱们 8.11 比 8.9 大。


怎么说呢,博士也会犯错,没缺点。


本文来自:知危,作者:纳西、四大、大饼,修改:大饼

文章版权声明:除非注明,否则均为ZBLOG原创文章,转载或复制请以超链接形式并注明出处。

发表评论

快捷回复: 表情:
评论列表 (有 8 条评论,294人围观)
网友昵称:南墙撞个洞
南墙撞个洞 V 游客 沙发
华的信博士也相同持这种观点,且不说 AI 的错觉假造文献问题,就专业程度而言,AI 的答复也只能欺骗大同行,也便是同一大学科里边方向不同的人群;而在小同行,也便是专业研讨这个方向的人眼里,AI 的缺点仍是十分显着的。北大 K 博士则谈得更深化,他以为
09-14 回复
网友昵称:血ヘ丿魔神
血ヘ丿魔神 V 游客 椅子
在才能究竟几许,知危修改部约请了三位闻名院校博士来向 o1 模型发问,并请他们对 o1 的答复进行打分。( 订阅 ChatGPT Plus 会员每周有 30 次向 o1 预览版模型发问的时机 )为了确保多样性和客观性,咱
09-14 回复
网友昵称:冰冷瞳
冰冷瞳 V 游客 板凳
右边高高的赤色柱子为满血版 o1。咱们能够看到,根本每一项,o1 比起自己的长辈来说,都是挨近 8 倍的提高。如果把这些测验效果拆开来,新 o1 也几乎是在各种学科、各种范畴都全量、全面、全方位地逾越 4o 版别。而最
09-14 回复
网友昵称:子佩
子佩 V 游客 凉席
段十分长的答复,有些像总述,后边还贴了参考文献。但出人意料的是,当咱们把这个答复交给信博士时,他看完就发现有些不对劲儿。倒不是 AI 答复得全错,而是 AI 在参考文献里乱编,这论文压根不存在!不过,整体来,信博士仍
09-14 回复
网友昵称:ノ惹紅顏
ノ惹紅顏 V 游客 地板
的模型。在官方给出的一组数据图中,咱们能很显着地看到,o1 模型在世界数学奥林匹克比赛、编程比赛以及博士等级的科学问题上有很大进步。图中最左边为 GPT-4o,中心是现在现已开放了的预览版 o1,最右边高高的赤色柱子为满血版 o1。咱们能
09-14 回复
网友昵称:归家浪徒
归家浪徒 V 游客 6楼
图中,咱们能很显着地看到,o1 模型在世界数学奥林匹克比赛、编程比赛以及博士等级的科学问题上有很大进步。图中最左边为 GPT-4o,中心是现在现已开放了的预览版 o1,最右边高高的赤色柱子为满血版 o1。咱们能够看到,根本每一项,o1 比起自己的长辈来说,都是挨近
09-14 回复
网友昵称:心跳的距离
心跳的距离 V 游客 7楼
也给了一段十分长的答复,有些像总述,后边还贴了参考文献。但出人意料的是,当咱们把这个答复交给信博士时,他看完就发现有些不对劲儿。倒不是 AI 答复得全错,而是 AI 在
09-14 回复
网友昵称:南笙°
南笙° V 游客 8楼
,我不只要知道蓝色是个啥,还能自己推一遍为啥是蓝色,什么大气散射,光谱波长都要考虑进去。这就需求 AI 有实打实的构建逻辑,推理证明的才能,换句话说,它不只要长脑子,还要动脑子。尽管思想链这个概念是 2022 年谷歌提出来的,但 OpenAI 这次是第一个完成的。
09-14 回复