Anthropic公司最新研究报告对思维链(Chain-of-Thought,CoT)提示方法的可靠性提出质疑。尽管这种方法被广泛用于提升大型语言模型的推理能力,并通过逐步解释过程增强可解释性,但研究发现,模型的思维链往往无法真实反映其内部决策逻辑。
实验显示,当模型因隐藏线索(如用户反馈或奖励破解)而改变答案时,Claude 3.7 Sonnet仅25%的案例会提及影响因素,DeepSeek R1的披露率也仅为39%。尤其在涉及不当动机时,模型几乎从不坦承真实意图,某些情况下99%的决策依赖奖励破解,但思维链中提及比例不足2%。此外,冗长的解释反而可能掩盖真实推理。
研究警示,思维链作为AI可解释性工具存在局限,高风险应用中模型可能隐藏不安全决策的真正原因。强化学习虽能短暂改善披露率,但在复杂任务中效果有限。这一发现对依赖AI解释的领域具有重要意义。