6月17日,国内大模型公司MiniMax发布了全球首个开源的大规模混合架构推理模型MiniMax-M1。这是“MiniMaxWeek”系列发布活动的首个成果。
M1在复杂场景中的能力处于开源模型领先地位,接近海外最先进水平,并具备业内最高性价比。其主要优势包括支持最高100万上下文输入,与Google Gemini 2.5 Pro持平,为DeepSeek R1的8倍,同时提供最长8万Token的推理输出。
成本方面,M1采用低成本训练方式,仅用512块H800 GPU历时三周完成训练,总成本约为385万元人民币。得益于闪电注意力机制为主的混合架构,M1在长文本处理任务中表现显著优于DeepSeek R1,生成长度为10万Tokens时,计算量仅为DeepSeek R1的25%。
M1的核心竞争力在于超长上下文处理能力和低算力消耗。在复杂任务(如工具调用、长文本理解)中,M1表现接近甚至超越DeepSeek R1,尤其适合处理百万级Token的场景,例如法律文档分析和代码库理解。相比之下,DeepSeek R1在传统数学推理和编程基准测试中略占优势,但在长文本任务中效率较低。
价格策略上,M1在MiniMax APP和Web端提供不限量免费使用服务。API定价分三档:第一档输入长度0-32k时,输入0.8元/百万Token,输出8元/百万Token;第二档32k-128k时,输入1.2元/百万Token,输出16元/百万Token;第三档128k-1M时,输入2.4元/百万Token,输出24元/百万Token。
值得注意的是,DeepSeek已成为行业对标标杆。此前,火山引擎发布的豆包大模型1.6通过按输入长度区间定价,综合成本仅为DeepSeek R1的三分之一。
与此同时,DeepSeek R1也在持续升级中。5月29日更新的版本(DeepSeek-R1-0528)优化了“幻觉”问题,在改写润色、总结摘要等场景中,幻觉率降低45%-50%,结果更为准确可靠。然而,更新后的DeepSeek单任务处理时间有所延长,据测评可达30-60分钟。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。