DeepSeek R1模型更新：强化后训练与梁文锋的AGI探索- DoNews

同行纷纷押注Agent，梁文锋仍保持深度求索AGI的定力。5月28日下午6时，DeepSeek宣布完成R1模型小版本试升级，并邀请用户测试官方网页、APP及小程序功能，API接口和使用方式保持不变。

当日晚10点33分，DeepSeek服务出现5分钟不可用状态，这是最近两个月内少见的服务中断现象。次日，DeepSeek开源R1最新0528版本，这是自1月20日正式推出以来首次更新，但官方未公布外界期待的R2时间表。

R1基于DeepSeek-V3模型能力复现，而R2可能需等待V4研发成功。V3上次升级是在3月24日，V4尚未有明确推出计划。5月29日晚间，DeepSeek发布文章称，此次更新通过后训练提升了模型思维深度与推理能力，尽管工具调用等能力仍有进化空间。

后训练是当前大模型竞赛中的重要阶段，一位投资人表示，国内几家“六小虎”已放弃基座模型预训练，转而加强后训练与微调投入以推动模型应用落地。傅盛感叹大模型领域竞争激烈，周期可能仅3至6个月。

今年以来，国内外科技巨头纷纷押注AI Agent。然而，梁文锋及其团队仍专注于模型本身的研究。腾讯迅速响应R1更新，于5月29日晚间宣布多款产品接入DeepSeek-R1-0528。

测试结果显示，升级后的R1-0528超越阿里Qwen3，在数学与编程能力上接近国际领先水平。新版模型平均每题使用23K tokens，较旧版12K显著增加。英伟达CEO黄仁勋预测Agentic AI将推动算力需求暴增至少100倍。

此外，DeepSeek蒸馏出DeepSeek-R1-0528-Qwen3-8B，该8B模型在AIME 2024数学测试中表现仅次于DeepSeek-R1-0528，超越Qwen3-8B且准确率与Qwen3-235B相当。强化后训练后，幻觉率降低45%～50%，此前R1因高幻觉率备受批评。

R1-0528上下文长度仍为64K，落后于部分国际领先模型的128K。更大上下文规模有助于提升模型记忆能力，对工具产品化意义重大。

美国科技公司对DeepSeek的看法逐渐分化，英伟达最新财报显示其业绩强劲增长，CEO黄仁勋称赞DeepSeek-R1如ChatGPT般越思考越聪明。OpenAI CEO山姆·阿尔特曼则表示不认为DeepSeek找到更高效驱动AI的方法。

DeepSeek承认R1-0528在某些方面仍与OpenAI和Anthropic的最新模型存在差距，如工具调用能力。一位投资人预估差距约为2至3个月。整个AI领域的竞争重心已转向Agent，谷歌、微软及Anthropic均在其近期发布会中重点讨论Agent相关进展。

尽管行业关注焦点转移，DeepSeek仍专注模型本身研究。梁文锋曾强调参与全球科技创新的重要性，认为中国企业不应仅依赖海外技术创新进行商业化，而是要推动技术前沿发展。DeepSeek团队约130人，以年轻技术人员为主，组织架构分为决策中心与执行层。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。