2025年7月27日,据通义千问Qwen报道,为持续拓展强化学习(Reinforcement Learning,RL)的应用,研究人员提出了Group Sequence Policy Optimization(GSPO)算法。与传统RL算法不同,GSPO在序列层面定义重要性比率,并进行裁剪、奖励和优化操作,以提升学习效率和性能。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。
2025年7月27日,据通义千问Qwen报道,为持续拓展强化学习(Reinforcement Learning,RL)的应用,研究人员提出了Group Sequence Policy Optimization(GSPO)算法。与传统RL算法不同,GSPO在序列层面定义重要性比率,并进行裁剪、奖励和优化操作,以提升学习效率和性能。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。