OpenAI新模型到达博士水平？我找几位博士测试了一下

09-14 294阅读 8评论

今日清晨，OpenAI 毫无预告地发布了业界等待已久的新模型。

此前，咱们从 CEO 奥特曼的推文中猜想这个模型会叫 “ 草莓 ”。

而在实践发布的时分，这个模型的名字叫 OpenAI o1。

奥特曼对这个模型的点评是：他们迄今为止最强、最共同的模型。

在官方给出的一组数据图中，咱们能很显着地看到，o1 模型在世界数学奥林匹克比赛、编程比赛以及博士等级的科学问题上有很大进步。

图中最左边为 GPT-4o，中心是现在现已开放了的预览版 o1，最右边高高的赤色柱子为满血版 o1。咱们能够看到，根本每一项，o1 比起自己的长辈来说，都是挨近 8 倍的提高。

如果把这些测验效果拆开来，新 o1 也几乎是在各种学科、各种范畴都全量、全面、全方位地逾越 4o 版别。

而最可怕的是：OpenAI 说自己专门请了博士专家一同答题，效果在博士等级的测验效果上，发现 o1 答题分数均超过了博士专家，o1 得分 78，人类得分 69.7。

所以，人类落花流水了？

为了能大约了解 o1 模型（预览版）的实在才能究竟几许，知危修改部约请了三位闻名院校博士来向 o1 模型发问，并请他们对 o1 的答复进行打分。（订阅 ChatGPT Plus 会员每周有 30 次向 o1 预览版模型发问的时机）

为了确保多样性和客观性，咱们约请的博士别离涉猎生物学、物理学、资料化学。

其间，南京大学在读物理学博士崔博士对 o1 模型的点评是最高的，他以为 o1 现已达到了 60~80 分（满分 100 分）的水平。

甚至在某些问题上，他以为答复能够给到 90 分。

崔博士的研讨方向是量子光学，所以他给出的第一个问题是：远距离羁绊光子分发，有什么战胜白噪声的方法？

考虑 9 秒后，o1 就给出了 10 点可行的方法。

崔博士对答复的点评为：“ 答案罗列得全面，契合现有最新研讨进展，对常识储藏缺乏的人或许供给调研方向，可是或许对高等级专业人员没有供给真实有用的信息，归于科普等级的答案。”

评分方面，崔博士以为 o1 的这次答复能够打 80 分，他指出，o1 答复中提到的自适应光学的方向是本年最新的 Science 效果，答复是具有先进性的。

随后，崔博士追问了“ 是否能够扩展到量子自适应光学？”这一问题，o1 考虑 19 秒后给出了作答。

崔博士对这个答复的点评是：“ 能够给到 90 分，这个答复对我也很有提示性，尽管不详细，但对咱们来说，只需求指个或许的方向，剩余的咱们自己来调研考虑。”

崔博士指出，“ 他的答复有很多是我的常识单薄区了，有的概念我也仅仅简略了解，但他说的我以为都是有道理的，所以我以为仍是能够的。”

比较之下，关于老版别模型相同问题的作答，崔博士的点评是不及格或是 60 分。

不过，在关于触及试验细节的 “ 依据非线性相互作用发生的高纯度解相关单光子的自相关函数，别离在接连泵浦和脉冲泵浦的状况下，怎么丈量？” 这一问题上，崔博士以为 o1 的答复中规中矩，只能给 75 分。

总的来讲，崔博士以为，在物理方面，o1 的体现算是不错的，和老版比下来提高根本在 20 分左右。

下面，咱们来看看北京大学在读资料化学的 K 博士对 o1 模型的点评。

K 博士环绕 Fe-N4 资料问了一系列的问题，o1 给了很长的一串答复，为了精简篇幅，咱们这儿只展现了部分问题和效果。

全体测验之后，K 博士给出的点评也差不多：或许有研讨生水平，可是深化的认知和给计划的才能比较弱，首要仍是针对已知内容作答。

比方问到怎么调理 Fe-N4，o1 能够说出依据电子态调理，但你要是问它那该怎么调理，它就有点卡壳了。尽管比较 4o 模型没那么胡言乱语，但详细的问题上他俩都给不了太多主张，老版别 4o 是损失细节胡说，新版别 o1 则是才能有限就会词穷。

下面，咱们再看看清华大学在读生物学的信博士的点评，他的发问是：“ 怎么从质谱数据会集区别赖氨酸残基的乳酰化和羧乙基润饰？”

o1 也给了一段十分长的答复，有些像总述，后边还贴了参考文献。

但出人意料的是，当咱们把这个答复交给信博士时，他看完就发现有些不对劲儿。

倒不是 AI 答复得全错，而是 AI 在参考文献里乱编，这论文压根不存在！

不过，整体来，信博士仍是觉得比之前的 AI 强了不少，最少了解才能是肉眼可见地增长了，编的时分也编得很像。

实践上，这个测验的效果并不出乎知危修改部的意料，由于依据官方给出的数据来看，o1 在物理上的分数达到了 92.8，现已远超其他两门学科，这或许便是崔博士对它比较看好的原因。

归纳来讲，真要提到逾越专业博士水平，三位博士们以为还得慢慢。

崔博士直言，在实际科研工作中，大都状况学者们都还得自己着手，AI 只能供给大致方向，因而花钱用这样的 AI 含义不大。

他表明更引荐本科生挑选这个 AI，要是在硕博阶段，这个 AI 的答复其实并不契合导师规范，组会上肯定要挨批。

清华的信博士也相同持这种观点，且不说 AI 的错觉假造文献问题，就专业程度而言，AI 的答复也只能欺骗大同行，也便是同一大学科里边方向不同的人群；而在小同行，也便是专业研讨这个方向的人眼里，AI 的缺点仍是十分显着的。

北大 K 博士则谈得更深化，他以为这个 AI 只能说在认知上有了硕士生的水平，但也仅仅作为一个补缀匠，谈不上说出什么创造性的效果。就创造性这一点来说，AI 是远远比不上硕博的水平的，这也是 AI 需求处理的重要问题。

在博士们的点评里，咱们好像能抓到一个关键：o1 模型之所以相对更强，是由于他有了更高维的认知和考虑形式。

这，也是 o1 本次更新的关键。在 OpenAI 关于 o1 模型原了解说的文章中，他们表明 o1 变强首要是他们用上了长思想链（CoT，Chain of thought），而不是传统的提示链（Prompt chain）。

第一眼看上去有点懵，说人话便是，这个大模型改变了以往那种你问我答的考虑方法。

在曾经的形式下，大模型的问答就跟下认识出答案相同，比方你问我天是啥色彩，这问题我想都不想，秒答蓝色。这实践上需求我本来就知道这个常识点，然后给你直接反响就完了。

但这个长思想链就相当于，我不只要知道蓝色是个啥，还能自己推一遍为啥是蓝色，什么大气散射，光谱波长都要考虑进去。

这就需求 AI 有实打实的构建逻辑，推理证明的才能，换句话说，它不只要长脑子，还要动脑子。

尽管思想链这个概念是 2022 年谷歌提出来的，但 OpenAI 这次是第一个完成的。

实操进程中，现在你与 o1 模型对话，除了收成答案，还能够挑选打开，看它回答问题时的思想逻辑，它的考虑是具象化的，而不是黑盒。

咱们拿崔博士发问的“远距离羁绊光子分发，有什么战胜白噪声的方法？”这一问题为例，o1 模型的考虑进程如下：

当咱们问询崔博士这个考虑进程是否合理时，崔博士表明：“ 合理，达到了博士等级，仍是高年级博士等级。”

所以，o1 模型之所以会在物理学问答上面体现得更超卓，便是由于他的思想链达到了博士的水准，他会像博士相同考虑物理问题。

同理，o1 模型在生物学、化学方面的体现相对欠安，很有或许是思想链还没练习到最佳状况，可是从物理学问题的体现来看，比及练习益发老练，o1 会变得更强，咱们能够等待一下 o1 模型正式版的发布。

哦，对了，最后放一个风趣的小彩蛋。

思想链尽管使得 o1 模型能像博士相同考虑，但好像在根底问题上练习得仍是不行全面，咱们发现他在简略问题上仍然会犯初级过错。

他考虑了 12 秒之后，自傲地告知咱们 8.11 比 8.9 大。

怎么说呢，博士也会犯错，没缺点。

本文来自：知危，作者：纳西、四大、大饼，修改：大饼

发表评论取消回复

评论列表（有 8 条评论，294人围观）

南墙撞个洞 V 游客沙发

华的信博士也相同持这种观点，且不说 AI 的错觉假造文献问题，就专业程度而言，AI 的答复也只能欺骗大同行，也便是同一大学科里边方向不同的人群；而在小同行，也便是专业研讨这个方向的人眼里，AI 的缺点仍是十分显着的。北大 K 博士则谈得更深化，他以为

09-14 回复

血ヘ丿魔神 V 游客椅子

在才能究竟几许，知危修改部约请了三位闻名院校博士来向 o1 模型发问，并请他们对 o1 的答复进行打分。（订阅 ChatGPT Plus 会员每周有 30 次向 o1 预览版模型发问的时机）为了确保多样性和客观性，咱

冰冷瞳 V 游客板凳

右边高高的赤色柱子为满血版 o1。咱们能够看到，根本每一项，o1 比起自己的长辈来说，都是挨近 8 倍的提高。如果把这些测验效果拆开来，新 o1 也几乎是在各种学科、各种范畴都全量、全面、全方位地逾越 4o 版别。而最

子佩 V 游客凉席

段十分长的答复，有些像总述，后边还贴了参考文献。但出人意料的是，当咱们把这个答复交给信博士时，他看完就发现有些不对劲儿。倒不是 AI 答复得全错，而是 AI 在参考文献里乱编，这论文压根不存在！不过，整体来，信博士仍

ノ惹紅顏 V 游客地板

的模型。在官方给出的一组数据图中，咱们能很显着地看到，o1 模型在世界数学奥林匹克比赛、编程比赛以及博士等级的科学问题上有很大进步。图中最左边为 GPT-4o，中心是现在现已开放了的预览版 o1，最右边高高的赤色柱子为满血版 o1。咱们能

归家浪徒 V 游客 6楼

图中，咱们能很显着地看到，o1 模型在世界数学奥林匹克比赛、编程比赛以及博士等级的科学问题上有很大进步。图中最左边为 GPT-4o，中心是现在现已开放了的预览版 o1，最右边高高的赤色柱子为满血版 o1。咱们能够看到，根本每一项，o1 比起自己的长辈来说，都是挨近

心跳的距离 V 游客 7楼

也给了一段十分长的答复，有些像总述，后边还贴了参考文献。但出人意料的是，当咱们把这个答复交给信博士时，他看完就发现有些不对劲儿。倒不是 AI 答复得全错，而是 AI 在

南笙° V 游客 8楼

，我不只要知道蓝色是个啥，还能自己推一遍为啥是蓝色，什么大气散射，光谱波长都要考虑进去。这就需求 AI 有实打实的构建逻辑，推理证明的才能，换句话说，它不只要长脑子，还要动脑子。尽管思想链这个概念是 2022 年谷歌提出来的，但 OpenAI 这次是第一个完成的。

OpenAI新模型到达博士水平？我找几位博士测试了一下

相关阅读

东盟经济展现韧性与活力

意总理不满欧盟“绿色新政”：这是一项“自我毁灭的”政策，战略不是很明智

把民主华章写在八桂大地

世界闽南文化论坛在雅加达举行

发表评论取消回复