- 检测目的:看AI解决这些阶梯题时,思考资源是不是随着难度增加而增加,准确率是不是随着难度增加而降低——如果是,说明AI符合单调性原理;如果不是,就是“体检不合格”。
- 防作弊设计:研究团队会仔细检查问题序列,排除那些有“捷径”的题(比如答案有周期性规律,AI不用推理就能蒙对),确保AI必须真思考,而不是耍小聪明。
2. LORE-COMPO:检测组合性的“拼盘题集”
这个部分的核心是组合两个独立的问题,就像给厨师出的“拼盘任务”,让他同时做两道毫不相干的菜。
- 具体做法:从着名的MATH500数学数据集里,随机选两个来自不同学科的问题(比如几何题+代数题),组合成一道“复合题”;确保这两个子问题完全独立,解决一个对另一个没任何帮助。
- 检测目的:看AI解决复合题时,思考资源是不是等于两个子问题的资源之和,准确率是不是等于两个子问题的准确率之积——如果差得太远,就说明AI的组合性表现不合格。
四、体检结果:现在的AI有多“不达标”?
研究团队用LORE-BENCH给10个主流推理AI(比如DeepSeek-R1系列、Phi-4-mini)做了“体检”,结果让人挺意外:单调性勉强及格,组合性几乎全军覆没。
1. 单调性:大部分AI“基本及格”
面对阶梯题集时,大部分AI能做到“题越难,花的思考资源越多,准确率越低”,就像学生面对难题会多花点时间,虽然正确率下降,但态度是对的。
但也有例外:一些小模型(比如1.5B参数的模型)在某些领域“犯糊涂”——比如解决第30步的复杂题,花的资源比第1步的简单题还少,纯属“敷衍了事”。
2. 组合性:几乎所有AI“严重挂科”
这是最严重的问题,几乎所有测试的AI都违反了组合性原理,主要表现为两种“思考错位”:
- 思考不足:偷工减料
比如解决“几何题+代数题”的复合题,理论上该花10+20=30步推理,结果AI只花了15步就草草结束,相当于厨师没做完两道菜就端上桌,肯定不好吃——最终准确率自然暴跌。
- 思考过剩:胡思乱想
还是上面那道复合题,AI却花了50步推理,远超理论需要的30步。这就像厨师做番茄炒蛋,非要用做佛跳墙的步骤,又是熬高汤又是雕花,纯属浪费时间——不仅效率低,还可能因为步骤太多出错,准确率反而更低。
研究团队总结:现在的AI推理模式是“随机且不一致”的,就像没学过时间管理的孩子,完全凭感觉分配思考时间,根本没有章法。
五、对症下药:SFT-Compo训练法——让AI学会“合理思考”
发现问题了,就得解决问题。研究团队开发了SFT-Compo训练方法,核心就是“教AI学规矩”,让它慢慢学会按推理定律分配思考资源,咱们用训练运动员的例子来理解这个方法:
教练训练马拉松选手,不会让他瞎跑,而是会制定科学的训练计划,教他“前半程保存体力,后半程发力冲刺”——SFT-Compo就是AI的“推理教练”,教它“简单题少花资源,复杂题多花资源”。
SFT-Compo的具体操作步骤:
1. 选“练习题”:构造复合题
从训练数据里选两个不同类别的独立问题,组合成复合题(比如“语文阅读理解+数学应用题”),确保两个子问题互不干扰。
2. 找“示范老师”:让强模型生成标准答案
找一个更强大的“教师模型”(比如参数更多、推理能力更强的AI),让它给每个复合题生成多个解题方案——就像让经验丰富的老师给学生写示范答案。
3. 挑“优质答案”:选符合组合性原理的方案
这是最关键的一步!不是所有示范答案都能用,研究团队会筛选那些最符合组合性原理的方案——也就是“解决复合题的推理步骤≈子问题1步骤+子问题2步骤”的答案。
相当于从老师的示范里,挑出“时间分配最合理”的那个,让AI照着学。
本小章还未完,请点击下一页继续阅读后面精彩内容!
4. 让AI“刷题”:学优质的推理模式
用筛选后的优质答案训练AI,让它慢慢记住“复合题该花多少步骤思考”,逐渐养成合理分配资源的习惯——就像学生反复看优质示范,慢慢学会合理安排考试时间。
六、训练效果:AI变“懂事”了,准确率还涨了!