DeepSeek R1模型更新:强化后训练与梁文锋的AGI探索

同行纷纷押注Agent,梁文锋仍保持深度求索AGI的定力。5月28日下午6时,DeepSeek宣布完成R1模型小版本试升级,并邀请用户测试官方网页、APP及小程序功能,API接口和使用方式保持不变。

当日晚10点33分,DeepSeek服务出现5分钟不可用状态,这是最近两个月内少见的服务中断现象。次日,DeepSeek开源R1最新0528版本,这是自1月20日正式推出以来首次更新,但官方未公布外界期待的R2时间表。

R1基于DeepSeek-V3模型能力复现,而R2可能需等待V4研发成功。V3上次升级是在3月24日,V4尚未有明确推出计划。5月29日晚间,DeepSeek发布文章称,此次更新通过后训练提升了模型思维深度与推理能力,尽管工具调用等能力仍有进化空间。

后训练是当前大模型竞赛中的重要阶段,一位投资人表示,国内几家“六小虎”已放弃基座模型预训练,转而加强后训练与微调投入以推动模型应用落地。傅盛感叹大模型领域竞争激烈,周期可能仅3至6个月。

今年以来,国内外科技巨头纷纷押注AI Agent。然而,梁文锋及其团队仍专注于模型本身的研究。腾讯迅速响应R1更新,于5月29日晚间宣布多款产品接入DeepSeek-R1-0528。

测试结果显示,升级后的R1-0528超越阿里Qwen3,在数学与编程能力上接近国际领先水平。新版模型平均每题使用23K tokens,较旧版12K显著增加。英伟达CEO黄仁勋预测Agentic AI将推动算力需求暴增至少100倍。

此外,DeepSeek蒸馏出DeepSeek-R1-0528-Qwen3-8B,该8B模型在AIME 2024数学测试中表现仅次于DeepSeek-R1-0528,超越Qwen3-8B且准确率与Qwen3-235B相当。强化后训练后,幻觉率降低45%~50%,此前R1因高幻觉率备受批评。

R1-0528上下文长度仍为64K,落后于部分国际领先模型的128K。更大上下文规模有助于提升模型记忆能力,对工具产品化意义重大。

美国科技公司对DeepSeek的看法逐渐分化,英伟达最新财报显示其业绩强劲增长,CEO黄仁勋称赞DeepSeek-R1如ChatGPT般越思考越聪明。OpenAI CEO山姆·阿尔特曼则表示不认为DeepSeek找到更高效驱动AI的方法。

DeepSeek承认R1-0528在某些方面仍与OpenAI和Anthropic的最新模型存在差距,如工具调用能力。一位投资人预估差距约为2至3个月。整个AI领域的竞争重心已转向Agent,谷歌、微软及Anthropic均在其近期发布会中重点讨论Agent相关进展。

尽管行业关注焦点转移,DeepSeek仍专注模型本身研究。梁文锋曾强调参与全球科技创新的重要性,认为中国企业不应仅依赖海外技术创新进行商业化,而是要推动技术前沿发展。DeepSeek团队约130人,以年轻技术人员为主,组织架构分为决策中心与执行层。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1