DeepSeek-R1登Nature封面:29.4万美元训练成本引关注

DeepSeek-R1登上《自然》杂志封面,其论文《通过强化学习激励大语言模型推理能力》引发广泛关注。通讯作者梁文锋带领团队开创性地使用纯强化学习(RL)方法,无需人类标注的推理轨迹,成功激发大模型的自主推理能力。

该研究首次公开了R1的训练成本——仅29.4万美元,远低于行业普遍水平。即便计入约600万美元的基础模型成本,整体开销仍显著低于OpenAI、谷歌等同类AI系统的训练支出。

R1是首个经历同行评审的主流大语言模型。审稿人Lewis Tunstall指出,此举为行业树立了重要先例,有助于评估系统潜在风险。Huan Sun认为严格评审验证了模型有效性,呼吁更多企业效仿。

研究团队采用DeepSeek-V3 Base作为基础模型,跳过监督微调(SFT)阶段,构建简洁RL框架:仅规定回答格式需包含<think>和<answer>标签,并根据最终答案正确性给予奖励。在此机制下,R1-Zero实现了推理能力质的飞跃。

在AIME 2024测试中,R1-Zero的pass@1准确率从初始15.6%提升至77.9%,配合自洽解码技术后达86.7%,超越人类参赛者平均水平。训练过程中,模型自发增加<think>内文本长度,展现出“思维链”延长、自我反思及探索替代解法等高级策略。

研究人员观察到一个显著“顿悟时刻”:模型在反思中使用“wait”一词频率骤增,标志其推理模式发生根本转变。这体现了强化学习的核心优势——通过正确激励引导模型自主发展出超越人类预设的高级策略。

为解决R1-Zero可读性差、语言混杂及通用能力弱等问题,团队设计多阶段精炼流程:先以高质量对话数据冷启动;再进行两轮强化学习,结合大规模监督微调,融合推理与非推理数据;最后引入复杂奖励模型优化有用性、无害性及人类偏好对齐。

最终版DeepSeek-R1在AlpacaEval 2.0与Arena-Hard基准上性能提升17%-25%,同时保持数学与编程任务顶尖水平。核心技术采用GRPO(组相对策略优化)算法替代传统PPO,通过生成一组答案并基于组内相对表现计算优势值进行更新,降低资源消耗且保持稳定高效。

奖励系统采取双轨制:推理任务使用基于规则的精确奖励(答案准确性、格式合规),避免神经网络奖励模型可能引发的“奖励投机”;通用任务则启用基于模型的奖励,包括评估摘要有用性的奖励模型与覆盖全输出的安全性奖励模型。

训练细节显示,初期聚焦数学与编程任务,仅用规则奖励。第8,200步时最大上下文长度由32,768增至65,536 token,带来性能与输出长度显著跃升。关键参数包括学习率3×10⁻⁶、KL散度系数0.001、GRPO裁剪比率ϵ=10、推理采样温度1,每步处理32问题、批大小512,每400步更新参考模型。

第一轮RL阶段出现中英混杂问题,团队引入“语言一致性奖励”机制,在中文问题中提高中文词汇比例得分以改善可读性。第二轮RL阶段结合多样化提示词分布,推理数据沿用规则奖励,通用数据启用模型奖励,温度降至0.7以增强连贯性,并在最后400步才引入基于模型的奖励以防投机。

当前R1仍存在局限:结构化输出与工具调用能力不足,对提示词敏感,零样本表现最佳,软件工程类长耗时任务提升有限。奖励投机风险在主观任务(如诗歌创作)中更难规避,因难以构建完美奖励信号。

针对OpenAI质疑R1可能利用ChatGPT输出训练,DeepSeek回应称未复制其推理示例。尽管基础模型训练数据包含互联网上的AI生成内容,但该解释获审稿人认可。Huan Sun称其“令人信服”,Lewis Tunstall表示现有证据表明仅靠强化学习即可达成高性能,其他实验室复现实验也支持此结论。

Lewis Tunstall强调,R1的方法正被用于改进其他大模型推理能力,并向数学与编码之外领域拓展,标志着“一场革命”的开启。R1开源后在Hugging Face下载量突破1090万次,成为最受欢迎模型之一。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1