复刻DeepSeek-R1长思维链推理能力,UC Berkeley团队提出强化学习新范式RLIF,通过模型自身置信度作为内在奖励信号。
具体而言,新方法无需外部奖励或标注数据,仅依赖模型对预测结果的自信程度进行优化。与传统方法相比,在数学任务中无需标准答案即可提升性能,代码任务表现更优。
几乎同时,《RENT: Reinforcement Learning via Entropy Minimization》论文也得出类似结论,两者主要差异在于使用KL散度或最小化熵衡量自信水平。
研究团队提出Intuitor框架,计算模型预测分布与均匀分布之间的KL散度作为“自信程度”。通过优化该信号,鼓励模型生成更有把握的回答,并促进结构化推理过程涌现。
实验中,1.5B和3B小模型展现出与DeepSeek-R1类似的长思维链推理行为。此外,内在奖励信号还降低了“奖励黑客”风险,避免模型通过语法正确但逻辑错误的方式钻空子。
在数学推理、代码生成等任务中,INTUITOR框架显著提升Qwen2.5-1.5B/3B性能。例如,Qwen2.5-3B在GSM8K基准测试中优于基线方法,代码生成任务相对提升65%。
INTUITOR模型演进分为三个阶段:生成代码以减少无效响应、添加自然语言推理促进理解、逐步细化生成带详细推理的有效代码。
为评估鲁棒性,团队对比离线与在线自我确定度奖励。结果显示,离线奖励易导致准确率崩溃,而在线奖励协同演化可有效防止破解。
进一步分析表明,INTUITOR模型对正确答案的self-certainty显著高于GRPO,区分度更强。未来可在更大规模基础模型和多样化数据集上探索其潜力。
本项研究由UC Berkeley Sergey Levine、宋晓东团队完成,作者包括博士后研究员Xuandong Zhao、本科生Zhewei Kang等人。Xuandong Zhao为浙江大学校友,近年来发表十多篇论文,多次被ICLR、ICML接收。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。