近日,DeepSeek 宣布低调更新了 DeepSeek R1(0528)版本。此次升级显著提升了模型在数学、编程与通用逻辑等方面的表现,并将幻觉率削减约 45%-50%。
海外开发者与研究人员通过基准测试发现,R1 的性能已接近 OpenAI o3 和 Google Gemini 2.5 Pro 模型的水平。尤其在 LiveCodeBench 测试中,其表现几乎与 OpenAI 的 O3 模型相当。
新版本在多个方面进行了优化,包括思维深度、推理能力以及工具调用支持。官方表示,当前模型的工具调用能力与 OpenAI o1-high 相当,但在某些领域仍落后于 o3-High 和 Claude 4 Sonnet。
R1 的一大亮点是其超长的记忆跨度和语境持久性。在 AI 角色扮演社区中,用户反馈称该模型能够记住对话中的细微细节并主动作出回应。
reddit 社区上,一名用户称,DeepSeek R1 是有史以来第一个在其所有测试中均获得满分的模型。这些测试涵盖实际商业应用中的复杂边缘案例,而非简单的基础任务。
X 平台上也有大量用户讨论 DeepSeek 的编程能力。一名用户尝试用 R1-0528 构建游戏后表示,其编程能力相比之前版本有显著改进。
人工智能模型分析机构 Artificial Analysis 的报告指出,DeepSeek R1 在智能指数上超越 xAI、Meta 和 Anthropic 等公司的模型。具体来看,R1 在 AIME 2024、LiveCodeBench、GPQA Diamond 和 Humanity's Last Exam 等测试中分别取得+21、+15、+10 和+6 分的进步。
尽管多数评价积极,仍有部分用户指出其不足之处。例如,X 上有用户认为 Deepseek 的上下文窗口限制为 64k,相较于 Claude 4 等前沿模型仍有差距。
此外,开源权重成为 DeepSeek 的重要优势之一。虽然训练数据未公开,但开放权重使开发者可以自行微调模型。这一特点吸引了大量开发者的关注,并引发了关于「真正开源」的广泛讨论。
值得注意的是,业界对即将发布的 DeepSeek R2 充满期待。不少网友在官方 X 帖子下留言表示希望尽快了解 R2 的进展。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。