苹果研究团队发布论文,指出当前主流推理模型(LRMs)在处理复杂问题时存在明显不足。
研究通过可控谜题环境(如汉诺塔、跳棋等)分析模型推理能力,发现性能随问题复杂度呈现三阶段变化:低复杂度任务中,非推理模型(LLMs)表现更优;中等复杂度任务中,推理模型借助 “思维链”(CoT)占优势;当复杂度超过临界值(如汉诺塔圆盘数≥8),两类模型准确率骤降至零。
此外,研究揭示了推理模型的 “反直觉缩放限制”。其推理成本(token 使用量)随复杂度先增后减,即便 token 预算充足,模型也会主动减少推理投入以避免崩溃。对推理轨迹的进一步分析显示,模型在简单问题中出现 “过度思考” 现象,而在复杂问题中缺乏有效自我修正能力。同时,模型在执行明确算法时表现不佳,暴露出符号操作与逻辑一致性方面的缺陷。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。