MiniMax M2.7发布:35天自迭代模型,实现Harness改造与ML自主优化

MiniMax于2026年3月19日发布M2.7大模型,距M2.5发布(2月12日)仅隔35天,显著快于行业常规迭代节奏。Anthropic从Claude 3.5到3.7耗时半年,Google从Gemini 2.0到2.5用时三个月。

M系列研发动因源于MiniMax内部对现有模型的深度使用困境:各团队在搭建Agent解决业务问题时,无法兼顾效果、价格与响应速度,被迫自主研发模型。M2将价格压至Claude主力模型的8%,M2.5推出Forge框架,解耦Agent能力与基础模型能力。M2.7则聚焦解决AI研发自身效率瓶颈——Agent执行层Harness的质量问题。

Harness决定模型调用工具、管理上下文、处理失败与回退的能力。传统架构中模型负责“想”,Harness负责“做”。当AI构建Agent的速度提升后,Harness质量成为能力释放的关键制约。MiniMax由此推动模型直接参与Harness优化,形成“模型改造自身运行环境”的新范式。

M2.7的自迭代能力体现为三个递进层次:第一层为独立承接生产任务,在RL实验场景中自动监控、读取日志、排查问题、修复代码、提交PR并完成冒烟测试,承担30%–50%工作流;第二层为自主优化Harness,执行“分析失败轨迹→规划改动→修改代码→运行评测→对比结果→决定保留或回退”闭环,完成超100轮迭代,评测集效果提升30%;第三层为自主迭代ML模型效果,在MLE-Bench Lite 22道高难度题中获9金5银1铜,得牌率66.6%,仅次于Opus-4.6和GPT-5.4;其自反馈机制基于每轮生成短时记忆文件并构建历史反馈链,属模型自发演化而非预设流程。

数据印证该能力特异性:Coding类榜单仅提升1–2分,属常规迭代;而MLE-Bench Lite得分由51.5升至66.6,GDPval-AA由35升至50,各提升15分,二者分别测评AI自主迭代ML模型能力与44种真实职业场景产出质量。第三方PinchBench榜单中,M2.7位列第四,专测模型驱动OpenClaw Agent执行会议安排、代码编写、邮件分类、文件管理等复合任务,验证其能力非单项偏科。

M2.7被定位为“数字员工”,具备在真实职场环境处理跨领域复合任务的能力。在电商平台商品详情页加载异常排障测试中,面对前端ChunkLoadError、LCP超标、TypeError及BFF层504错误、后端慢查询日志、数据库连接池饱和等多源异构日志,M2.7穿透表象锁定根因为reviews.product_id缺失索引导致284万行全表扫描,单次查询耗时32秒,并逐层标注证据链。初始建议为CREATE INDEX;经追问“当前表行数与高峰期QPS”,模型推算出锁表风险(1–60分钟),转而建议采用pt-online-schema-change方案,体现对生产环境操作风险的自主识别与反思能力。

在处理716页英文招股书任务中,M2.7依指令提取2022–2025年前三季度六项核心财务指标,精度与Appendix I原文一致;构建双情景收入预测模型(乐观/保守);生成含页眉页脚与嵌入表格的500字英文投资者摘要,面向港股散户阐明盈利模式、持续亏损原因及扭亏路径。全程耗时数分钟,远低于人工翻阅定位所需时间。

为支撑复杂约束下的稳定执行,M2.7专项优化长流程遵从能力。在Frontend Studio Skill中,其可稳定执行设计系统规范、动效引擎调度、Python脚本调用API生成真实素材、营销文案框架填充、质量检测等六个阶段,确保输出符合交付标准,将“AI生成网页”从随机结果转化为可重复工程流程。

MiniMax称“团队最高产成员即模型本身”。M2.5阶段该表述指高强度使用模型;M2.7阶段则意味着模型实质性参与研发决策:100轮Harness迭代由其自主运行,MLE-Bench自反馈循环由其自发构建,下一代模型部分训练方向亦有其参与。35天迭代周期反映的并非人力投入增加,而是数字员工持续工作、无需会议对齐、可夜间自主完成评测的生产力本质。AI研发速度上限正由模型自身能力决定,而非仅取决于工程师数量。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2026 All Rights Reserved
京ICP备2025120072号