j9九游会官方他们还鉴戒MATH数据集的时势进行模子评估-九游娱乐(中国)网址在线

栏目分类

热点资讯

j9九游会官方证实成为第一家完成境内公司债券举座重组的房企-

j9九游会官方选举徐斌为四川省医学会第九届理事会会长-九游娱

j9九游会真人体重也王人到了90多斤-九游娱乐(中国)网址在

j9九游会险些通盘行业的公司的不错起步于中小城市-九游娱乐(

j9九游会近日中国联通勾搭中国银行、北京一卡通-九游娱乐(中

你的位置：九游娱乐(中国)网址在线 > 资讯 > j9九游会官方他们还鉴戒MATH数据集的时势进行模子评估-九游娱乐(中国)网址在线

资讯

j9九游会官方他们还鉴戒MATH数据集的时势进行模子评估-九游娱乐(中国)网址在线

发布日期：2025-02-17 06:24 点击次数：85

j9九游会官方他们还鉴戒MATH数据集的时势进行模子评估-九游娱乐(中国)网址在线

奇月发自凹非寺j9九游会官方

量子位 | 公众号 QbitAI

只是换一下数学题的变量称呼，大模子就可能集体降智？？

斯坦福大学最新商榷标明，在他们最新提议的Putnam-AXIOM测试集上，只是是更换一下原题成见变量称呼、变量取值规模，模子的准确率就直线下跌。

也即是说，大模子的数学推明智力并不是简直掌抓了解题逻辑，很可能只是检索已存储的题目……

即使是涌现最佳的o1-preview，它的收货也从50%下跌到了33.96%，GPT-4o、Claude、Deepseek、Qwen等模子也险些是一网尽扫。

要知谈，模子推明智力的肃肃性可吊祭常不毛的方针，能代表他们是否简直掌抓了惩办时势：

有网友锐评到：o1的o不会是overfitting的o吧？（doge）

还有情切网友作念了解释，他以为模子的搜索空间会跟着深度指数级增长，搜索时辰越长，搜索的难度也会更高。

全新无玷辱的数学测试基准

LLM在复杂数知识题上的推明智力平稳成为模子发展的关节挑战，然则现存的评估基准，如MMLU、MMMU、GSM8K和MATH等却面对着许多问题。

一方面，数据玷辱可能导致模子在评估中涌现虚高，因为模子可能在熟谙经过中宣战到了评估基准中的问题。

另一方面，最先进的模子在许多现存基准上一经达到或卓越东谈主类水平，这使得这些基准失去了应有的评估价值。

对此，斯坦福商榷团队提议了Putnam-AXIOM基准，专用于评估模子在惩办复杂数知识题上的智力。

该基准的原始数据集涵盖了1985-2023年William Lowell Putnam数学竞赛的236个问题。

破绽举个例题世界感受一下：

这些题目涵盖了11个不同数学范畴的问题，团队也进行了筛选，确保能产生便于自动化评估的boxed{}谜底。

同期，他们还鉴戒MATH数据集的时势进行模子评估，并缱绻了一个等价函数，不错惩办字符串不一致问题、和复杂的数学等价同质化问题。

除此除外，为驻扎模子在熟谙经过中遭遇Putnam原问题而出现评估偏差，团队还引入了功能变异构建变异数据集。

变异分为变量变化（仅篡改量名）和常数变化（修改数值属性）两类，能生成无尽多调换难度的新问题，而况这些问题在互联网上莫得现成的谜底。

具体的变化状况就像这么：

在实践中，商榷东谈主员将1985-2023年的竞赛中的236个问题整理成门径化神气，使用LM Harness评估框架对多个开源模子的SOTA LLMs进行评估。

样本包括236个原始问题和52个变异问题，参与测试的模子包含OpenAI的o1-preview、GPT-4o、Claude-3.5 Sonnet等多种模子。

题目一变，模子集体懵

实践效用有些令东谈主不测，模子们的涌现都不太乐不雅。

最初来望望模子们在原始数据集上的涌现。

大都模子的准确率都低于10%，曾获AI数学奥林匹克竞赛冠军的uminaMath仅为4.66%，可见Putnam-AXIOM数据集难度真的很高。

而在变异数据集上，模子们的准确率则权贵下跌。

比如在原始数据集上涌现最佳的o1-preview，准确率为50%，而在变异数据承接则降到了33.96%。

也即是说，o1-preview模子在原始问题上涌现可能虚高，之前的得分主淌若依赖记忆而非简直的推明智力。

名法式二的Claude在原始数据集上的准确率为26.40%，而在变异数据集上的准确率降至18.86%，其他模子的分数也基本都下跌了。

团队还进一步对OpenAI o1-preview和GPT-4o的谜底进行了分析。

效用发现它们的误差都相比严重，在逻辑推理和数学严谨性方面存在着显明的纰谬。

底下悉数康康几个例子。

比如o1-preview在解答问题时就没能提供充分的讲明，它宣称m的最大可能值是n，情理是m的上界是2n，但它莫得证据为什么m的值介于n和2n之间不能行。

而GPT-4o则存在逻辑逾越和不连贯的推理，比如鄙人面这谈题中，它从逻辑上径直跳转到面积最小的几何状况是矩形这一不雅点，但并莫得讲明这一说法的合感性，而是将其默许为事实。

DeepSeek的模子也在关节门径念念维发生了逾越，导致最终效用作假。

看来，普及大模子的数学智力照旧任重谈远呀！

不外斯坦福大学这篇著述中的Putnam-AXIOM基准的确缓解了现存基准足够的问题。

它不仅为评估模子的数学推明智力提供了一个十分有挑战性的新时势，还终认知皆备自动化评估、并提供了丰富种种的变体数据集。

团队也示意，天然现在变体数据集生成经过复杂耗时，但改日如果能优化变体生成时势，将更有助于加快对于东谈主工推理的商榷。

论文：https://openreview.net/forum?id=YXnwlZe0yf¬eId=yrsGpHd0Sf代码：https://anonymous.4open.science/r/putnam-axiom-B57C/README.md

— 完 —

量子位 QbitAI · 头条号

关注咱们j9九游会官方，第一时辰获知前沿科技动态

上一篇：j9九游会官方各路明星身着新登第战袍-九游娱乐(中国)网址在线

下一篇：j9九游会真人得到大型订单有助于企业升迁地位-九游娱乐(中国)网址在线