DeepSeek官方宣布推出最新版本模型DeepSeek-V3.1,该模型支持“思考模式”与“非思考模式”混合运行,用户可根据场景需求灵活切换推理深度。
DeepSeek-V3.1通过深度优化的训练策略与大规模长文档扩展,在推理速度、工具调用智能、代码和数学任务等方面均有显著进步。
模型的主要亮点包括:混合思考模式,通过切换对话模板实现单一模型兼容两种模式;更智能的工具调用,后训练优化提升工具调用和Agent任务表现;更高的思考效率,V3.1-Think在回答质量上可与R1-0528媲美,响应速度更快。
测试结果显示,V3.1-Think在AIME 2025得分88.4%,GPQA Diamond得分80.1%,LiveCodeBench得分74.8%,均优于R1-0528的87.5%、81.0%、73.3%。
V3.1-Think相较于R1-0528使用更少tokens达到相似或略高准确率,在计算资源优化上优势明显。
在软件工程和Agent任务基准上,DeepSeek-V3.1在SWE-Bench Verified得分66.0%,SWE-Bench Multilingual得分54.5%,Terminal-Bench得分31.3%,均显著优于V3-0324和R1-0528。
DeepSeek-V3.1基于MoE架构,总参数671B,激活37B,在大多数基准上显著优于R1-0528,尤其在搜索Agent和长上下文任务上平均提升约20-300%。
在Huggingface上公布的评估结果表明,DeepSeek-V3.1在MMLU-Redux和MMLU-Pro等任务上表现稳定提升,接近行业顶尖大模型水平。
在HLE任务上,DeepSeek-V3.1通过率29.8%,优于R1-0528的24.8%,接近GPT-5、Grok 4等国际一线大模型。
新版模型在网页检索、复合搜索和工具协同场景上实现跨越式进步,中文网页搜索和多模态复合推理分数显著超越旧版本。
在代码生成和自动化评测方面,DeepSeek-V3.1得分显著提升,特别是在智能体模式下代码任务通过率和自动化执行能力大幅增强。
不过在部分常规对话和知识问答场景下,R1-0528仍具有一定竞争力。
价格方面,Input API Price分为Cache Hit(0.07美元/百万tokens)和Cache Miss(0.56美元/百万tokens),Output API Price为1.68美元/百万tokens。
DeepSeek-V3.1首次实现对Anthropic API原生兼容,用户可像调用Claude或Anthropic生态模型一样集成DeepSeek。
开发者可通过配置API地址和密钥,在所有支持Anthropic API的环境下使用DeepSeek-V3.1的推理和对话能力。
DeepSeek在发布节奏上采取低调态度,直接放出模型文件供开发者下载测试,随后补充细节,展现高效和开发者友好的特点。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。