DeepSeek发布V3.2系列模型 推理能力提升成本降低

12月1日晚间,DeepSeek发布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型。

此次发布的模型在推理能力上有所增强,在Benchmark推理测试中,V3.2与GPT-5、Claude4.5在不同领域表现各有优劣,Gemini 3 Pro则整体领先。

相比月之暗面新推出的Kimi-K2-Thinking,V3.2输出长度更短,计算开销减少,用户等待时间显著降低。

IDC中国研究总监卢言霞指出,将推理能力融入大模型是未来发展方向,有助于提升响应速度并解决纯推理模型延迟高的问题。

快思慢想研究院院长田丰表示,新模型通过稀疏注意力机制,使128K长上下文推理成本下降数倍,内存占用减少70%。

作为开源模型,DeepSeek在数学推理(IMO金牌)和编程(ICPC世界第二)等任务中达到GPT-5水平,得益于强化学习投入超过预训练阶段。

V3.2从“工具调用”升级为“思考型智能体”,引入“思考保留”模式,支持工具调用嵌入完整推理链条,避免传统智能体的“记忆断裂”问题。

面对多步骤复杂任务,模型可基于历史工具执行结果持续优化决策,无需重启推理流程。

技术报告显示,V3.2在智能体评测中的得分高于开源模型Kimi-K2-Thinking和MiniMax M2。

但DeepSeek承认,其模型在世界知识广度、令牌效率及复杂任务处理方面仍落后于Gemini 3 Pro等前沿闭源模型。

团队计划通过增加预训练计算量弥补知识差距,并优化推理链智能密度以提升效率,改进基础模型与训练后方案。

一位AI智能体业内人士实测后表示,DeepSeek的多智能体效果优于国内同类模型,但不及谷歌Gemini。

卢言霞认为,未来大模型将演变为智能体平台,智能体将在垂直场景率先落地。

构建系统级智能体仍需克服数据、硬件、知识融合与外部生态协同等挑战,专用智能体开发平台将成为趋势。

田丰指出,深度思考与工具调用正趋于融合,长记忆与复杂任务规划能力逐步提升。

服务执行正取代信息搜索,千问App、豆包AI、DeepSeek等已实现购物、支付、物流、社交、娱乐等O2O服务整合,兼具信息查询与执行能力。

田丰认为,法律、财会、医疗、制造、能源、政务、教育等领域专用智能体将成为刚需,通用智能体调用专用智能体的协同模式将普及。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1