DeepSeek发布V3.2系列模型推理能力提升成本降低- DoNews

12月1日晚间，DeepSeek发布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型。

此次发布的模型在推理能力上有所增强，在Benchmark推理测试中，V3.2与GPT-5、Claude4.5在不同领域表现各有优劣，Gemini 3 Pro则整体领先。

相比月之暗面新推出的Kimi-K2-Thinking，V3.2输出长度更短，计算开销减少，用户等待时间显著降低。

IDC中国研究总监卢言霞指出，将推理能力融入大模型是未来发展方向，有助于提升响应速度并解决纯推理模型延迟高的问题。

快思慢想研究院院长田丰表示，新模型通过稀疏注意力机制，使128K长上下文推理成本下降数倍，内存占用减少70%。

作为开源模型，DeepSeek在数学推理（IMO金牌）和编程（ICPC世界第二）等任务中达到GPT-5水平，得益于强化学习投入超过预训练阶段。

V3.2从“工具调用”升级为“思考型智能体”，引入“思考保留”模式，支持工具调用嵌入完整推理链条，避免传统智能体的“记忆断裂”问题。

面对多步骤复杂任务，模型可基于历史工具执行结果持续优化决策，无需重启推理流程。

技术报告显示，V3.2在智能体评测中的得分高于开源模型Kimi-K2-Thinking和MiniMax M2。

但DeepSeek承认，其模型在世界知识广度、令牌效率及复杂任务处理方面仍落后于Gemini 3 Pro等前沿闭源模型。

团队计划通过增加预训练计算量弥补知识差距，并优化推理链智能密度以提升效率，改进基础模型与训练后方案。

一位AI智能体业内人士实测后表示，DeepSeek的多智能体效果优于国内同类模型，但不及谷歌Gemini。

卢言霞认为，未来大模型将演变为智能体平台，智能体将在垂直场景率先落地。

构建系统级智能体仍需克服数据、硬件、知识融合与外部生态协同等挑战，专用智能体开发平台将成为趋势。

田丰指出，深度思考与工具调用正趋于融合，长记忆与复杂任务规划能力逐步提升。

服务执行正取代信息搜索，千问App、豆包AI、DeepSeek等已实现购物、支付、物流、社交、娱乐等O2O服务整合，兼具信息查询与执行能力。

田丰认为，法律、财会、医疗、制造、能源、政务、教育等领域专用智能体将成为刚需，通用智能体调用专用智能体的协同模式将普及。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。