字节跳动推出VAPO强化学习框架，显著提升大模型复杂任务推理能力- DoNews快讯

DoNews > 快讯 > 字节跳动推出VAPO强化学习框架，显著提升大模型复杂任务推理能力

字节跳动推出VAPO强化学习框架，显著提升大模型复杂任务推理能力

2025-04-12 14:01:02

329758

字节跳动Seed研究团队近日发布VAPO强化学习训练框架，该技术针对大型语言模型在复杂任务中的推理能力进行了专项优化。研究显示，采用VAPO框架的Qwen2.5-32B模型在AIME24基准测试中得分从5分跃升至60.4分，超越当前最优方法DAPO达10分。

VAPO全称为"增强价值的近端政策优化"，通过三项核心技术突破解决了传统价值导向方法在长链式推理任务中的局限性：构建精细价值训练框架、引入长度自适应GAE机制、整合多项协同优化技术。测试表明，该框架不仅使训练曲线更为平滑，还能在仅用60%更新步骤的情况下实现性能突破。

该研究的消融实验验证了七项关键技术的有效性，包括价值预训练、解耦GAE等技术组合，为大型语言模型在数学推理等复杂任务中的应用开辟了新路径。

戴尔CEO减持套现12亿美元；英特尔首席战略执行官将于6月底离职｜Do早报一起来看新鲜的早报吧～

挨骂的陈可辛和被打一星的《酱园弄》，冤不冤？这种与我无关的虚假“宏大”。骗不到当下的观众了。

用户流失、出海不易，短剧能救映宇宙？下一个十年刚刚开始。

小米YU7开售18小时，锁单24万台，收入超680亿元小米YU7开售18小时锁单24万台，预计收入608亿元，3分钟大定突破20万台。

东风日产高管黄照昆炮轰米粉愚忠已道歉东风日产黄照昆就不当言论向小米及车友道歉，称已删除内容并反思。

小米回应“前总监大瓜”：冯某此前是食堂切菜工小米前员工被指包养多人，小米澄清其从未任总监。网传十多年前顺为资本项目细节不实，强调无智能音箱概念。

知名美食专栏作家蔡澜离世，享年83岁著名作家、美食家蔡澜于2025年6月25日离世，享年84岁。

AI强大，外屏更强大，突破形态束缚，小米MIX Flip 2来了！小米MIX Flip 2来了！

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号