DeepSeek-V3.2两款新模型开源，让开源模型重回第一梯队- DoNews

12月2日消息，昨日晚间，DeepSeek发布了两款新模型：DeepSeek-V3.2和DeepSeek-V3.2-Speciale，并开源。DeepSeek-V3.2 达到了 GPT-5 的水平，DeepSeek-V3.2-Speciale在主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro。

在发布的技术论文中，DeepSeek团队提到，过去几个月中出现了一个明显的分化，开源与闭源模型之间的性能差距非但没有缩小、反而似乎在扩大，限制开源模型在复杂任务中能力的三个关键不足。

最新发布和开源的这两款模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale则是克服了这些不足，成功让开源模型重回全球大模型第一梯队。

强化Agent能力，融入思考推理

根据DeepSeek官方介绍：

1、DeepSeek-V3.2 的目标是平衡推理能力与输出长度，适合日常使用，例如问答场景和通用 Agent 任务场景。

在公开的推理类 Benchmark 测试中，DeepSeek-V3.2 达到了 GPT-5 的水平，仅略低于 Gemini-3.0-Pro；相比 Kimi-K2-Thinking，V3.2 的输出长度大幅降低，显著减少了计算开销与用户等待时间。

2、DeepSeek-V3.2-Speciale 的目标是将开源模型的推理能力推向极致，探索能力的边界。

V3.2-Speciale 版本是 DeepSeek-V3.2 的长思考增强版，并结合了 DeepSeek-Math-V2 的定理证明能力。该模型具备出色的指令跟随能力、严谨的数学证明与逻辑验证能力，在主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro。

V3.2-Speciale 模型成功斩获 IMO 2025（国际数学奥林匹克）、CMO 2025（中国数学奥林匹克）、ICPC World Finals 2025（国际大学生程序设计竞赛全球总决赛）及 IOI 2025（国际信息学奥林匹克）金牌。

在高度复杂任务上，Speciale 模型大幅优于标准版本，但消耗的 Tokens 也显著更多，成本更高。目前，DeepSeek-V3.2-Speciale 仅供研究使用，不支持工具调用，暂未针对日常对话与写作任务进行专项优化。

当前官方网页端、APP 和 API 用户均可直接体验 DeepSeek-V3.2。API 用户可限时调用体验 DeepSeek-V3.2-Speciale。DeepSeek-V3.2系列模型已经开源，技术报告同期发布。

三大因素拉大开源模型与闭源模型差距

在技术论文引言中，DeepSeek团队指出，推理模型的发布标志着大型语言模型发展历程中的一个关键时刻，推动了其在可验证领域整体性能的显著飞跃。然而，在过去几个月中出现了一个明显的分化。虽然开源社区持续取得进展，但闭源专有模型的性能轨迹以明显更快的速度加速提升。因此，开源与闭源模型之间的性能差距非但没有缩小，反而似乎在扩大，专有系统在复杂任务中展现出日益优越的能力。

通过分析，DeepSeek团队识别出限制开源模型在复杂任务中能力的三个关键不足。

首先，在架构上，对朴素注意力机制的主要依赖严重限制了长序列的效率。这种低效对可扩展部署和有效后训练都构成了重大障碍。

其次，在资源分配方面，开源模型在后训练阶段的计算投入不足，限制了其在困难任务上的表现。

最后，在 AI Agent方面，与专有模型相比，开源模型在泛化能力和指令遵循能力上表现出明显滞后，阻碍了其在真实部署中的有效性。

为了应对这些关键限制，DeepSeek团队首先引入了 DSA（DeepSeek 稀疏注意力），一种旨在显著降低计算复杂度的高效注意力机制。该架构有效解决了效率瓶颈，即使在长上下文场景中也能保持模型性能。

其次，开发了一个稳定且可扩展的强化学习协议，允许在后训练阶段进行显著的计算扩展。值得注意的是，该框架分配的后训练计算预算超过了预训练成本的 10%，从而解锁了高级能力。

第三，提出了一种新颖的流程，以在工具使用场景中培养可泛化的推理能力。首先，利用 DeepSeek-V3 方法实施冷启动阶段，将推理和工具使用统一在单个轨迹中。随后，推进到大规模Agent任务合成，生成了超过 1800 个任务导向的环境和 85000 个复杂的提示词。这些广泛的合成数据驱动了 RL 过程，显著增强了模型在智能体上下文中的泛化能力和指令遵循能力。

DeepSeek-V3.2 的关键技术突破就包括上述3项：引入 DSA稀疏注意力机制、可扩展的强化学习框架、大规模Agent任务合成流程。

DeepSeek-V3.2 使用与 DeepSeek-V3.2-Exp 完全相同的架构。与 DeepSeek-V3.1 的最后一个版本 DeepSeek-V3.1-Terminus 相比，DeepSeek-V3.2 唯一的架构修改是通过持续训练引入了DSA 稀疏注意力机制。

DeepSeek-V3.2保持了与 DeepSeek-V3.2-Exp 中相同的后训练流程，包括专家蒸馏和混合 RL 训练。

本文转载自TechWeb，转载目的在于传递更多信息，并不代表本站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请联系TechWeb通知我方删除，我方将在收到通知后第一时间删除内容！本文只提供参考并不构成任何投资及应用建议。本站拥有对此声明的最终解释权。