字节跳动推出VAPO强化学习框架,显著提升大模型复杂任务推理能力

字节跳动Seed研究团队近日发布VAPO强化学习训练框架,该技术针对大型语言模型在复杂任务中的推理能力进行了专项优化。研究显示,采用VAPO框架的Qwen2.5-32B模型在AIME24基准测试中得分从5分跃升至60.4分,超越当前最优方法DAPO达10分。

VAPO全称为"增强价值的近端政策优化",通过三项核心技术突破解决了传统价值导向方法在长链式推理任务中的局限性:构建精细价值训练框架、引入长度自适应GAE机制、整合多项协同优化技术。测试表明,该框架不仅使训练曲线更为平滑,还能在仅用60%更新步骤的情况下实现性能突破。

该研究的消融实验验证了七项关键技术的有效性,包括价值预训练、解耦GAE等技术组合,为大型语言模型在数学推理等复杂任务中的应用开辟了新路径。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1