谷歌DeepMind与约翰·开普勒林茨大学合作,通过强化学习微调(RLFT)技术,显著改善了语言模型的决策能力。传统语言模型虽能推导正确策略,却常因“纸上谈兵”、偏好短期回报或机械重复动作而表现不佳。DeepMind团队创新性地利用模型自生成的思维链作为训练信号,评估每个推理步骤的行动奖励,促使模型选择逻辑自洽且高效的行动方案。
实验结果显示,在多臂老虎机测试中,2B参数模型的动作覆盖率提升了12个百分点,频次偏见率从70%降至35%。井字棋实验中,模型对阵随机对手的胜率提高5倍,与最优代理对战的平均回报从-0.95归零。此外,27B大模型在强化学习微调后,执行最优动作的比例从21%跃升至87%,有效缩小了推理与行动之间的差距。这一突破为语言模型在复杂交互环境中的应用开辟了新路径。