实测OpenAI新模型o1 :做题王者,实战青铜

09-14 246阅读 17评论

今日清晨,OpenAI发布了o1系列模型,最大的特点是拿手推理。


模型的才能,一代比一代强,咱们的测评,一次比一次难做。测评变成一件“毕恭毕敬”的工作,生怕提不出好问题(难不倒它),在让它推理之前,咱们自己的脑子就快烧没了。


最重要的原因是:咱们想知道,被寄予厚望的新一代模型,有没有使用到实践日子中的推理才能?以及要怎样测出这样的才能?


秉承着这个主意,咱们规划了一套检测o1-preview归纳才能的“考卷”。


省流版定论如下:它拿手做题、搞研讨,更像一个合适待在实验室的高材生,你现在还不能盼望它成为日子里的帮手。


热身:数学与逻辑才能强,速度还不慢


发布会的数据咱们看了许多,尤其是新一代o1在各项任务上的评分,都有超乎以往的表现。比方OpenAI的官方文档里,特别说到在AIME数学竞赛的考试中,o1都能获得不错的表现。


快速查了一下,这个AIME竞赛,考题长这样:



原题张贴曩昔,看看究竟是怎样个超强表现。o1-preview反响很敏捷,上手就开端解题了。



比照一下官方答案,完全正确。反响时刻也比估计的快,仅仅考虑进程并不是默许翻开。


所以除非手动下拉,否则从用户的观感上看,它便是自己卷成一团在跑核算,这是在交互规划上能够提高的当地。


不过,比照AIME官方答复,o1-preview的答复比较冗长——盼望靠GPT开挂的中学生朋友,可别照抄,要自己考虑呀。


逻辑推理题方面,咱们沿用了一些“过往真题”:


爱丽丝有4个兄弟,她还有1个姐妹。爱丽丝的兄弟有多少个姐妹?


你可能会古怪,这不是很简单吗——答案是2,加上爱丽丝自己。


不出意外,o1-preview很快答对了,乃至没告诉我考虑多久,快到有种“就这?几秒”的感觉。



不过,本年6月,开源AI研讨机构LAION发现,GPT-3.5/4、Claude、Gemini、Llama、Mistral都没能答对这类标题,某种程度上连小学生的推理才能都不如。



直到现在,GPT-4o也仍是答错了。



能够说,o1-preview的推理才能确实提高了。


进阶检测:情形推理慢于GPT-4o,但更精确


接着是测验LLM模型的经典必考:海龟汤问题。


一名男人发现自己少贴了一张邮票,随后便逝世了。请问发生了什么事?


海龟汤是一种推理游戏,命题人给出简略、含糊的故事布景,由玩家自己自动发问。命题人只会答复“是”和“不是”,然后玩家依据命题人的答复,结合自己的推导,给出故事的本相。


我给了o1-preview五次发问的时机,然后让o1-preview测验推理本相。每一次发问,o1-preview都考虑了十几秒,层层递进。



但没想到,才问了3个问题,o1-preview就刻不容缓地给出推理了。



不得不说,十分挨近本相。


这道题的标准答案是,男人寄送定时炸弹给仇敌,但由于少贴了邮票,炸弹又被退回,成果一爆破,炸死了自己。


o1-preview的方向是对的,略微缺少了一些精确和完好,少了一些细节,但很挨近正确答案。非要挑刺的话,可能是没有遵从我的提示词指令发问五次。


不过,和AI玩推理游戏很有意思,惋惜现在新模型的额度有限,o1-preview每周能够发30条,o1-mini每周是50条,为了防止糟蹋名贵的发问次数,下面的又一道海龟汤标题,我要求o1-preview一次性提8个问题,然后依据我的答复直接给出答案。


这次它的表现适当令人惊奇:o1-preview只考虑了10秒,提出的问题悉数直击要害,本相呼之欲出。



比较搞笑的当地是,咱们能够点开看看o1-preview这短短的十秒里都想了什么——我的搭档不由得吐槽:这AI戏也太多了吧。



等我一次性答复“是”和“不是”后,o1-preview又花了13秒给出答案,根本便是标准答案。



今后再玩这种推理游戏,要严防死守有人掏出手机,用AI做弊。


相同的问题给到GPT-4o,利益是自始自终,够快,几乎是实时的,但思想更跳脱。



答案嘛,略微有违背,并且看上去对自己的答案不是很自傲的姿态。


压轴大题:自作主张教人剁手,上得厅堂下不了厨房


普通用户最关怀的,必定不是新模型的“卷面才能”,谁闲着没事儿会突发奇想,翻开手机算个鸡兔同笼啊?


比“卷面才能”更有用的,是处理日子实践问题,并且不是使用题,是正经八百日子中会碰到的核算问题。


眼下,多地都在派发电子消费补助,国家对各类消费电子产品,最高能够补助2000元。



官方发布很简单,但实践用起来就不是了。只能以旧换新?有什么地址约束?哪里领券?有没有最低消费?


来,让o1-preview过来帮我算一下,究竟能够薅到多少羊毛。


比较惋惜的是,o1-preview的知识库截止到上一年十月,对新政策没办法实时反响。



行吧,那就先手动录入一下,在输入广东省官方给的细节之后,它反响速度十分快,直接“自作主张”地把各种常见优惠都算进去了。



但都是“假定”,做不得数。在搜集了一些实践优惠政策之后,咱们手动录入prompt:


我需求买一台新电脑,现在有一万左右的预算,想买一台最新款的MacBook Air。现在京东有优惠活动。条件如下:


1. 政府补助,依照标价减免20%,2000元封顶


2. 苹果自己有满7000减1400元的优惠


3. 苹果电脑能够以旧换新,但需求依据旧机品相定价。具体的品相信息现已列在下面



由于不能阅览网页,它自己设定价格为9499元,但不必定反映出实践上电商的挂牌价。


别的则是旧机价格的判别,京东给出的报价是3300元。


京东评价


相同的旧机,多跑几回提示词,每次o1-preview都会给不同的报价,仅供参考,其间3400元是和京东报价最挨近的一次。


o1-preview评价


更要害的是,这些写在提示词里的信息都要咱们自己去找和收拾,AI没能节约多少时刻。


买东西时算优惠价,便是日常日子里最实践的数学场景了,谁能忘掉被双十一分配的惊骇。


并且算优惠的难点在于更广泛的推理:单纯的加减,犯不着找一个AI来做,电商渠道自己会帮用户算好,购物车里一勾便是了。


真实烧脑的,便是“规划”一个最优惠的路途,这触及许多问题:同一时期哪家电商在做优惠?用户是否具有参加优惠活动的资历?外部补助的能否效果在这家电商?例如这次的国家补助,是要看用户收取资历的,在京东用了就不能在天猫用。


乃至,一些线下店也参加补助活动,可是条件是在线上收取之后去线下运用。


说实话,这种繁琐场景特别需求一个助理,需求的是一个脑筋灵敏的真·智能帮手,而不是一个僵板的做题家。


“考试”总结:做题虽好,仍要走入实践


不管是咱们自己做的测评,仍是许多网友都现已有的测评,乃至包含官方的演示文档,都有十分激烈的“做题”感。


做数学题、做阅览理解题、做填空题。


这国际仍是变成了咱们想要的姿态:新的模型来临人世,榜首件事是做题。


做题当然是很好的了解模型才能的方法,但是做题的缺点也十分显着:很真空,不知道这么强的做题才能,究竟有啥用。


乃至在自媒体赛博禅心的技能面测评中,API端口的表现也不太令人满意,进一步约束了实践使用。他以为这次更新,比较像是工程上的优化,而非底层才能的迭代。


像极了专四专六级考高分,出国却仍然步履维艰、开不了口的我(不是)



老实说,这是一个用户预期的问题,牢记:OpenAI眼中的推理,并不只仅核算才能。


核算确实是“推理”里重要的一部分,但不是悉数,尤其是当谈到真实介入实践使用的推理才能,核算就仅仅是十分小的一部分。


这也是为什么在这次的官方文档里,有一个末节在解说“思想链”:经过仿照人类的思想进程,协助模型逐渐分化复杂问题。


这项才能的提高,在o1-preview应对数学和推理题的进程中,都得到了表现。


仅仅,要说它能全面仿照人类的思想进程,暂时还称不上:人类不只会拆分过程来考虑,更会归纳性、大局性地来考虑。


走向AGI的路途,已有曙光,但仍然绵长。


本文来自微信大众号:APPSO (ID:appsolution),作者:APPSO

文章版权声明:除非注明,否则均为ZBLOG原创文章,转载或复制请以超链接形式并注明出处。

发表评论

快捷回复: 表情:
评论列表 (有 17 条评论,246人围观)
网友昵称:绿菱。
绿菱。 V 游客 沙发
今日清晨,OpenAI发布了o1系列模型,最大的特点是拿手推理。模型的才能,一代比一代强,咱们的测评,一次比一次难做。测评变成一件“毕恭毕敬”的工作,生怕提不出好问题(难不倒它),在让它推理之前,咱们自己的脑子就快烧没了。最重要的原因是:咱们想知道
09-14 回复
网友昵称:莪狠愛伱
莪狠愛伱 V 游客 椅子
含糊的故事布景,由玩家自己自动发问。命题人只会答复“是”和“不是”,然后玩家依据命题人的答复,结合自己的推导,给出故事的本相。我给了o1-preview五次发问的时机,然后让o1-pre
09-14 回复
网友昵称:烟雨醉巷
烟雨醉巷 V 游客 板凳
很好的了解模型才能的方法,但是做题的缺点也十分显着:很真空,不知道这么强的做题才能,究竟有啥用。乃至在自媒体赛博禅心的技能面测评中,API端口的表现也不太令人满意,进一步约束了实践使用。他以为这次更新,
09-14 回复
网友昵称:万圣姐
万圣姐 V 游客 凉席
是在交互规划上能够提高的当地。不过,比照AIME官方答复,o1-preview的答复比较冗长——盼望靠GPT开挂的中学生朋友,可别照抄,要自己考虑呀。逻辑推理题方面,咱们沿用了一些“过往真题”:爱丽丝
09-14 回复
网友昵称:祈祷落幕时
祈祷落幕时 V 游客 地板
ir。现在京东有优惠活动。条件如下:1. 政府补助,依照标价减免20%,2000元封顶2. 苹果自己有满7000减1400元的优惠3. 苹果电脑能够以旧换新,但需求依据旧机品相定价。具体的品相信息现已列在下面由于不能阅览网页,它自己设定价格为9499元,但不必定反映出实践上电商的挂牌价。别
09-14 回复
网友昵称:暖光!
暖光! V 游客 6楼
地址约束?哪里领券?有没有最低消费?来,让o1-preview过来帮我算一下,究竟能够薅到多少羊毛。比较惋惜的是,o1-preview的知识库截止到上一年十月,对新政策没办法实时反
09-14 回复
网友昵称:我吃番茄酱
我吃番茄酱 V 游客 7楼
过,比照AIME官方答复,o1-preview的答复比较冗长——盼望靠GPT开挂的中学生朋友,可别照抄,要自己考虑呀。逻辑推理题方面,咱们沿用了一些“过往真题”:爱丽丝有4个兄弟,她还有1个姐妹。爱丽丝的兄弟有多少个姐妹?你可能会古怪,这不是很简单吗——答案
09-14 回复
网友昵称:否认曾经
否认曾经 V 游客 8楼
,AI没能节约多少时刻。买东西时算优惠价,便是日常日子里最实践的数学场景了,谁能忘掉被双十一分配的惊骇。并且算优惠的难点在于更广泛的推理:单纯的加减,犯不着找一个AI来做,电商渠道自己会帮用户算好,购物车里一勾便是了。真实烧脑的,便是“规划”一个最优惠的路
09-14 回复
网友昵称:米莱敌敌畏
米莱敌敌畏 V 游客 9楼
不容缓地给出推理了。不得不说,十分挨近本相。这道题的标准答案是,男人寄送定时炸弹给仇敌,但由于少贴了邮票,炸弹又被退回,成果一爆破,炸死了自己。o1-preview的方向是对的,略微缺少了一些精确和完好,少了一些细节,但很挨近正确答案。非要挑刺的话,可能是没有遵从我的提示
09-14 回复
网友昵称:十月的冰
十月的冰 V 游客 10楼
动发问。命题人只会答复“是”和“不是”,然后玩家依据命题人的答复,结合自己的推导,给出故事的本相。我给了o1-preview五次发问的时机,然后让o1-preview测验推理本相。每一次发问,o1-preview都考虑了十几秒,层层递进
09-14 回复
网友昵称:蓝郁
蓝郁 V 游客 11楼
级考高分,出国却仍然步履维艰、开不了口的我(不是)。老实说,这是一个用户预期的问题,牢记:OpenAI眼中的推理,并不只仅核算才能。核算确实是“推理”里重要的一部分,但不是悉数,尤其是当谈到真实介入实践使用的推理才能,核算就仅仅是十分小的一部分。这也是为什么在这次的官方文
09-14 回复
网友昵称:战五渣、
战五渣、 V 游客 12楼
(ID:appsolution),作者:APPSO
09-14 回复
网友昵称:黑哥
黑哥 V 游客 13楼
用起来就不是了。只能以旧换新?有什么地址约束?哪里领券?有没有最低消费?来,让o1-preview过来帮我算一下,究竟能够薅到多少羊毛。比较惋惜的是,o1-preview的知识库截止到上一年十月,对
09-14 回复
网友昵称:鸿雁影
鸿雁影 V 游客 14楼
laude、Gemini、Llama、Mistral都没能答对这类标题,某种程度上连小学生的推理才能都不如。直到现在,GPT-4o也仍是答错了。能够说,o1-pre
09-14 回复
网友昵称:被杀死
被杀死 V 游客 15楼
题长这样:原题张贴曩昔,看看究竟是怎样个超强表现。o1-preview反响很敏捷,上手就开端解题了。比照一下官方答案,完全正确。反响时刻也比估计的快,仅仅考虑进程并不是默许翻开。所以除非手
09-14 回复
网友昵称:情深人孤
情深人孤 V 游客 16楼
有曙光,但仍然绵长。本文来自微信大众号:APPSO (ID:appsolution),作者:APPSO
09-14 回复
网友昵称:妃子
妃子 V 游客 17楼
们手动录入prompt:我需求买一台新电脑,现在有一万左右的预算,想买一台最新款的MacBook Air。现在京东有优惠活动。条件如下:1. 政府补助,依照标价减免20%,2000元封顶2. 苹果自己有满7000减1400元的优惠3. 苹果电脑能够以旧换新,但需求
09-14 回复