DeepSeek R1 更新引发海外热议，性能接近国际顶尖模型- DoNews

近日，DeepSeek 宣布低调更新了 DeepSeek R1（0528）版本。此次升级显著提升了模型在数学、编程与通用逻辑等方面的表现，并将幻觉率削减约 45%-50%。

海外开发者与研究人员通过基准测试发现，R1 的性能已接近 OpenAI o3 和 Google Gemini 2.5 Pro 模型的水平。尤其在 LiveCodeBench 测试中，其表现几乎与 OpenAI 的 O3 模型相当。

新版本在多个方面进行了优化，包括思维深度、推理能力以及工具调用支持。官方表示，当前模型的工具调用能力与 OpenAI o1-high 相当，但在某些领域仍落后于 o3-High 和 Claude 4 Sonnet。

R1 的一大亮点是其超长的记忆跨度和语境持久性。在 AI 角色扮演社区中，用户反馈称该模型能够记住对话中的细微细节并主动作出回应。

reddit 社区上，一名用户称，DeepSeek R1 是有史以来第一个在其所有测试中均获得满分的模型。这些测试涵盖实际商业应用中的复杂边缘案例，而非简单的基础任务。

X 平台上也有大量用户讨论 DeepSeek 的编程能力。一名用户尝试用 R1-0528 构建游戏后表示，其编程能力相比之前版本有显著改进。

人工智能模型分析机构 Artificial Analysis 的报告指出，DeepSeek R1 在智能指数上超越 xAI、Meta 和 Anthropic 等公司的模型。具体来看，R1 在 AIME 2024、LiveCodeBench、GPQA Diamond 和 Humanity's Last Exam 等测试中分别取得+21、+15、+10 和+6 分的进步。

尽管多数评价积极，仍有部分用户指出其不足之处。例如，X 上有用户认为 Deepseek 的上下文窗口限制为 64k，相较于 Claude 4 等前沿模型仍有差距。

此外，开源权重成为 DeepSeek 的重要优势之一。虽然训练数据未公开，但开放权重使开发者可以自行微调模型。这一特点吸引了大量开发者的关注，并引发了关于「真正开源」的广泛讨论。

值得注意的是，业界对即将发布的 DeepSeek R2 充满期待。不少网友在官方 X 帖子下留言表示希望尽快了解 R2 的进展。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。