2026年5月28日,英伟达研究团队正式开源强化学习训练框架Polar。该框架无需修改Codex、Claude Code、Qwen Code等现有代码智能体执行外壳(harness),即可无缝集成GRPO(广义相对策略优化)训练。其核心设计将模型与智能体接口设为训练边界,在推理服务器与执行框架间插入轻量层,自动记录提示词、token采样及响应轨迹。实验显示,在SWE-Bench Verified基准上,Qwen3.5-4B模型经Polar+GRPO训练后,pass@1分数最高提升594.74%。训练效率亦显著提升,墙钟时间缩短约5.4倍。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



