阿里发布通义千问QwenLong-L1-32B模型 长文本推理能力突破

阿里通义千问团队5月26日正式推出QwenLong-L1-32B模型,这是其首个通过强化学习训练的长文本情境推理模型(LRM)。该模型在七个长文本DocQA基准测试中表现优异,超越多个旗舰模型,性能与Claude-3.7-Sonnet-Thinking相当。

QwenLong-L1-32B最大特点是支持高达131072个tokens的上下文窗口。基于QwenLong-L1框架开发,该模型采用创新的GRPO和DAPO算法,结合混合奖励函数,显著提升了长文本推理的准确性和效率。团队在训练过程中运用了课程引导的分阶段强化学习技术和难度感知的回顾采样策略。

除模型外,阿里还发布了完整的长文本推理解决方案,包含高性能模型、优化数据集、创新训练方法和全面评估体系四大核心组件。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1