大白话聊透人工智能精校章节_伊利诺伊大学团队AI推理新突破：“AI思维的隐藏规律”

- 检测目的：看AI解决这些阶梯题时，思考资源是不是随着难度增加而增加，准确率是不是随着难度增加而降低——如果是，说明AI符合单调性原理；如果不是，就是“体检不合格”。

- 防作弊设计：研究团队会仔细检查问题序列，排除那些有“捷径”的题（比如答案有周期性规律，AI不用推理就能蒙对），确保AI必须真思考，而不是耍小聪明。

2. LORE-COMPO：检测组合性的“拼盘题集”

这个部分的核心是组合两个独立的问题，就像给厨师出的“拼盘任务”，让他同时做两道毫不相干的菜。

- 具体做法：从着名的MATH500数学数据集里，随机选两个来自不同学科的问题（比如几何题+代数题），组合成一道“复合题”；确保这两个子问题完全独立，解决一个对另一个没任何帮助。

- 检测目的：看AI解决复合题时，思考资源是不是等于两个子问题的资源之和，准确率是不是等于两个子问题的准确率之积——如果差得太远，就说明AI的组合性表现不合格。

四、体检结果：现在的AI有多“不达标”？

研究团队用LORE-BENCH给10个主流推理AI（比如DeepSeek-R1系列、Phi-4-mini）做了“体检”，结果让人挺意外：单调性勉强及格，组合性几乎全军覆没。

1. 单调性：大部分AI“基本及格”

面对阶梯题集时，大部分AI能做到“题越难，花的思考资源越多，准确率越低”，就像学生面对难题会多花点时间，虽然正确率下降，但态度是对的。

但也有例外：一些小模型（比如1.5B参数的模型）在某些领域“犯糊涂”——比如解决第30步的复杂题，花的资源比第1步的简单题还少，纯属“敷衍了事”。

2. 组合性：几乎所有AI“严重挂科”

这是最严重的问题，几乎所有测试的AI都违反了组合性原理，主要表现为两种“思考错位”：

- 思考不足：偷工减料

比如解决“几何题+代数题”的复合题，理论上该花10+20=30步推理，结果AI只花了15步就草草结束，相当于厨师没做完两道菜就端上桌，肯定不好吃——最终准确率自然暴跌。

- 思考过剩：胡思乱想

还是上面那道复合题，AI却花了50步推理，远超理论需要的30步。这就像厨师做番茄炒蛋，非要用做佛跳墙的步骤，又是熬高汤又是雕花，纯属浪费时间——不仅效率低，还可能因为步骤太多出错，准确率反而更低。

研究团队总结：现在的AI推理模式是“随机且不一致”的，就像没学过时间管理的孩子，完全凭感觉分配思考时间，根本没有章法。

五、对症下药：SFT-Compo训练法——让AI学会“合理思考”

发现问题了，就得解决问题。研究团队开发了SFT-Compo训练方法，核心就是“教AI学规矩”，让它慢慢学会按推理定律分配思考资源，咱们用训练运动员的例子来理解这个方法：

教练训练马拉松选手，不会让他瞎跑，而是会制定科学的训练计划，教他“前半程保存体力，后半程发力冲刺”——SFT-Compo就是AI的“推理教练”，教它“简单题少花资源，复杂题多花资源”。

SFT-Compo的具体操作步骤：

1. 选“练习题”：构造复合题

从训练数据里选两个不同类别的独立问题，组合成复合题（比如“语文阅读理解+数学应用题”），确保两个子问题互不干扰。

2. 找“示范老师”：让强模型生成标准答案

找一个更强大的“教师模型”（比如参数更多、推理能力更强的AI），让它给每个复合题生成多个解题方案——就像让经验丰富的老师给学生写示范答案。

3. 挑“优质答案”：选符合组合性原理的方案

这是最关键的一步！不是所有示范答案都能用，研究团队会筛选那些最符合组合性原理的方案——也就是“解决复合题的推理步骤≈子问题1步骤+子问题2步骤”的答案。

相当于从老师的示范里，挑出“时间分配最合理”的那个，让AI照着学。

本小章还未完，请点击下一页继续阅读后面精彩内容！

4. 让AI“刷题”：学优质的推理模式

用筛选后的优质答案训练AI，让它慢慢记住“复合题该花多少步骤思考”，逐渐养成合理分配资源的习惯——就像学生反复看优质示范，慢慢学会合理安排考试时间。

六、训练效果：AI变“懂事”了，准确率还涨了！