Qwen提出新强化学习算法GSPO- DoNews快讯

DoNews > 快讯 > Qwen提出新强化学习算法GSPO

Qwen提出新强化学习算法GSPO

2025-07-27 23:48:02

383337

2025年7月27日，据通义千问Qwen报道，为持续拓展强化学习（Reinforcement Learning，RL）的应用，研究人员提出了Group Sequence Policy Optimization（GSPO）算法。与传统RL算法不同，GSPO在序列层面定义重要性比率，并进行裁剪、奖励和优化操作，以提升学习效率和性能。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

鸿蒙游戏出展CJ2025 《斗罗大陆猎魂世界》负责人讲述实际应用场景 ChinaJoy2025鸿蒙展区携50余款游戏亮相，展示游戏场景感知、秒启动、互动卡片等创新功能，提升玩家体验。

GenFlow超能搭子：百度用系统化AI能力，定义内容创作新标准百度文库GenFlow超能搭子实现AI内容创作全链路覆盖，提升效率，8月将发布2.0版本。

百度网盘AI相机引爆 ChinaJoy，开启全场景智能服务新纪元百度网盘AI相机成ChinaJoy逛展神器，集拍摄、存储、修图、识别于一体，提升用户体验。

2025世界机器人大会新闻发布会在京召开 “让机器人更智慧，让具身体更智能”

向AI要“人效”：1688全面AI化，让做生意更简单 1688推出AI版App及‘88查’工具，全面AI化助力商家高效选品、精准找厂，推动‘AI to B’商业范式发展

问止中医再闯港交所，“AI+中医”难掩亏损困局问止中医急于叩开资本市场的大门

顺络电子上半年归母净利润为4.86亿元同比上升32% 顺络电子2025年上半年营收32.2亿元，净利4.86亿元，新兴市场表现强劲。

Reddit第二季度营收同比增长78% Reddit二季度营收5亿美元，同比增长78%，净利润8900万美元。日活用户达1.104亿，AI工具用户增长6倍，数据授权业务成新增长点。

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号