谷歌DeepMind的AI系统一分之差痛失IMO金牌!19秒做一题碾压人类选手
新智元 2024-07-26行业资讯
就在刚刚,谷歌DeepMind最新的数学模型捧得了IMO奥数银牌!它不仅以满分成绩做出了6道题中的4道,距离金牌只有1分之差,而且在第4题上只用了19秒,解题质量和速度惊呆了评分的人类评委。
就在刚刚,谷歌DeepMind最新的数学模型捧得了IMO奥数银牌!它不仅以满分成绩做出了6道题中的4道,距离金牌只有1分之差,而且在第4题上只用了19秒,解题质量和速度惊呆了评分的人类评委。





AI的数学推理能力,震惊评分教授
程序能够提出这样一个非显而易见的解法,实在令人印象深刻,远超出我对当前技术水平的预期。

AlphaProof


AlphaGeometry 2

AI的解题过程
值得一提的是,这些问题首先会被人工翻译成正式的数学语言,然后才会投给AI。
P1







P2







P4




P6







能做奥数题,但能分清9.11和9.9谁大吗?


AlphaProof和AlphaGeometry 2,是在形式化证明和特定领域的符号引擎上完成训练。在某种程度上,它们在解决专业的奥林匹克竞赛问题更出色,即使它们基于通用LLM构建的。 而GPT-4o的训练集中,混杂了大量的GitHub代码数据,可能远远超过数学数据。在软件版本中,「v9.11 > v9.9」,可能严重扭曲了数据分布。因此,这个错误在某种程度上是可以理解的。


https://x.com/DrJimFan/status/1816521330298356181#深度好文计划#
很赞哦! ()
- 上一篇
用AI训练AI,可能越练越“傻”
对于人工智能(AI)大语言模型来说,通常给予的训练数据越多,模型就会越“聪明”。但英国《自然》杂志新发表的一项关于大模型的研究显示,如果只用AI生成的数据来训练大模型,会使模型性能下降、越练越“傻”。
- 下一篇
AI大模型“高考”成绩公布:几乎都偏文,数学有点差,解题思路特别“轴”
2024年全国高考甫一结束,上海人工智能实验室旗下的大模型开源开放评测体系司南(OpenCompass)选取国内外7个AI大模型进行高考全科目测试,7名AI考生的试卷,由具有高考评卷经验的教师在不知考生身份的情况下判分日前,测试结果出炉:书生·浦语2.0系列文曲星大语言模型、阿里通义千问大模型Qwen2-72B以及GPT-4o的成绩在所有AI考生中位列前三。以今年河南省分数线为参考,这三名AI考生的文科成绩均超“一本线”,理科成绩稳居“二本线”之上。