DeepSeek-V3.2两款新模型开源,让开源模型重回第一梯队

12月2日消息,昨日晚间,DeepSeek发布了两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale,并开源。DeepSeek-V3.2 达到了 GPT-5 的水平,DeepSeek-V3.2-Speciale在主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro。

在发布的技术论文中,DeepSeek团队提到,过去几个月中出现了一个明显的分化,开源与闭源模型之间的性能差距非但没有缩小、反而似乎在扩大,限制开源模型在复杂任务中能力的三个关键不足。

最新发布和开源的这两款模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale则是克服了这些不足,成功让开源模型重回全球大模型第一梯队。

强化Agent能力,融入思考推理

根据DeepSeek官方介绍:

1、DeepSeek-V3.2 的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用 Agent 任务场景。

在公开的推理类 Benchmark 测试中,DeepSeek-V3.2 达到了 GPT-5 的水平,仅略低于 Gemini-3.0-Pro;相比 Kimi-K2-Thinking,V3.2 的输出长度大幅降低,显著减少了计算开销与用户等待时间。

2、DeepSeek-V3.2-Speciale 的目标是将开源模型的推理能力推向极致,探索能力的边界。

V3.2-Speciale 版本是 DeepSeek-V3.2 的长思考增强版,并结合了 DeepSeek-Math-V2 的定理证明能力。该模型具备出色的指令跟随能力、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美 Gemini-3.0-Pro。

V3.2-Speciale 模型成功斩获 IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC World Finals 2025(国际大学生程序设计竞赛全球总决赛)及 IOI 2025(国际信息学奥林匹克)金牌。

在高度复杂任务上,Speciale 模型大幅优于标准版本,但消耗的 Tokens 也显著更多,成本更高。目前,DeepSeek-V3.2-Speciale 仅供研究使用,不支持工具调用,暂未针对日常对话与写作任务进行专项优化。

当前官方网页端、APP 和 API 用户均可直接体验 DeepSeek-V3.2。API 用户可限时调用体验 DeepSeek-V3.2-Speciale。DeepSeek-V3.2系列模型已经开源,技术报告同期发布。

三大因素拉大开源模型与闭源模型差距

在技术论文引言中,DeepSeek团队指出,推理模型的发布标志着大型语言模型发展历程中的一个关键时刻,推动了其在可验证领域整体性能的显著飞跃。然而,在过去几个月中出现了一个明显的分化。虽然开源社区持续取得进展,但闭源专有模型的性能轨迹以明显更快的速度加速提升。因此,开源与闭源模型之间的性能差距非但没有缩小,反而似乎在扩大,专有系统在复杂任务中展现出日益优越的能力。

通过分析,DeepSeek团队识别出限制开源模型在复杂任务中能力的三个关键不足

首先,在架构上,对朴素注意力机制的主要依赖严重限制了长序列的效率。这种低效对可扩展部署和有效后训练都构成了重大障碍。

其次,在资源分配方面,开源模型在后训练阶段的计算投入不足,限制了其在困难任务上的表现。

最后,在 AI Agent方面,与专有模型相比,开源模型在泛化能力和指令遵循能力上表现出明显滞后,阻碍了其在真实部署中的有效性。

为了应对这些关键限制,DeepSeek团队首先引入了 DSA(DeepSeek 稀疏注意力),一种旨在显著降低计算复杂度的高效注意力机制。该架构有效解决了效率瓶颈,即使在长上下文场景中也能保持模型性能。

其次,开发了一个稳定且可扩展的强化学习协议,允许在后训练阶段进行显著的计算扩展。值得注意的是,该框架分配的后训练计算预算超过了预训练成本的 10%,从而解锁了高级能力。

第三,提出了一种新颖的流程,以在工具使用场景中培养可泛化的推理能力。首先,利用 DeepSeek-V3 方法实施冷启动阶段,将推理和工具使用统一在单个轨迹中。随后,推进到大规模Agent任务合成,生成了超过 1800 个任务导向的环境和 85000 个复杂的提示词。这些广泛的合成数据驱动了 RL 过程,显著增强了模型在智能体上下文中的泛化能力和指令遵循能力。

DeepSeek-V3.2 的关键技术突破就包括上述3项:引入 DSA稀疏注意力机制、可扩展的强化学习框架、大规模Agent任务合成流程。

DeepSeek-V3.2 使用与 DeepSeek-V3.2-Exp 完全相同的架构。与 DeepSeek-V3.1 的最后一个版本 DeepSeek-V3.1-Terminus 相比,DeepSeek-V3.2 唯一的架构修改是通过持续训练引入了DSA 稀疏注意力机制。

DeepSeek-V3.2保持了与 DeepSeek-V3.2-Exp 中相同的后训练流程,包括专家蒸馏和混合 RL 训练。

本文转载自TechWeb,转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请联系TechWeb通知我方删除,我方将在收到通知后第一时间删除内容!本文只提供参考并不构成任何投资及应用建议。本站拥有对此声明的最终解释权。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1