突破策略熵崩溃难题,AI强化学习迈入新阶段

上海人工智能实验室联合清华大学等国际团队,针对大型语言模型(LLMs)在强化学习中的策略熵崩溃问题提出创新解决方案。研究发现,策略熵的下降会限制模型探索能力,导致性能瓶颈。为此,团队提出 Clip-Cov 和 KL-Cov 两种技术,通过裁剪高协方差 token 和施加 KL 惩罚,有效维持策略熵水平。

实验基于 Qwen2.5 模型和 DAPOMATH 数据集,结果显示新方法显著提升模型性能,尤其在高难度基准测试中表现突出。此外,研究团队在多个开源模型上验证了该技术的普适性,进一步证明其在数学和编程任务中的优越性。这一突破不仅解决了强化学习的核心难题,还为更智能语言模型的发展奠定了理论基础。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1