MiniMax M2.7发布：35天自迭代模型，实现Harness改造与ML自主优化- DoNews

MiniMax于2026年3月19日发布M2.7大模型，距M2.5发布（2月12日）仅隔35天，显著快于行业常规迭代节奏。Anthropic从Claude 3.5到3.7耗时半年，Google从Gemini 2.0到2.5用时三个月。

M系列研发动因源于MiniMax内部对现有模型的深度使用困境：各团队在搭建Agent解决业务问题时，无法兼顾效果、价格与响应速度，被迫自主研发模型。M2将价格压至Claude主力模型的8%，M2.5推出Forge框架，解耦Agent能力与基础模型能力。M2.7则聚焦解决AI研发自身效率瓶颈——Agent执行层Harness的质量问题。

Harness决定模型调用工具、管理上下文、处理失败与回退的能力。传统架构中模型负责“想”，Harness负责“做”。当AI构建Agent的速度提升后，Harness质量成为能力释放的关键制约。MiniMax由此推动模型直接参与Harness优化，形成“模型改造自身运行环境”的新范式。

M2.7的自迭代能力体现为三个递进层次：第一层为独立承接生产任务，在RL实验场景中自动监控、读取日志、排查问题、修复代码、提交PR并完成冒烟测试，承担30%–50%工作流；第二层为自主优化Harness，执行“分析失败轨迹→规划改动→修改代码→运行评测→对比结果→决定保留或回退”闭环，完成超100轮迭代，评测集效果提升30%；第三层为自主迭代ML模型效果，在MLE-Bench Lite 22道高难度题中获9金5银1铜，得牌率66.6%，仅次于Opus-4.6和GPT-5.4；其自反馈机制基于每轮生成短时记忆文件并构建历史反馈链，属模型自发演化而非预设流程。

数据印证该能力特异性：Coding类榜单仅提升1–2分，属常规迭代；而MLE-Bench Lite得分由51.5升至66.6，GDPval-AA由35升至50，各提升15分，二者分别测评AI自主迭代ML模型能力与44种真实职业场景产出质量。第三方PinchBench榜单中，M2.7位列第四，专测模型驱动OpenClaw Agent执行会议安排、代码编写、邮件分类、文件管理等复合任务，验证其能力非单项偏科。

M2.7被定位为“数字员工”，具备在真实职场环境处理跨领域复合任务的能力。在电商平台商品详情页加载异常排障测试中，面对前端ChunkLoadError、LCP超标、TypeError及BFF层504错误、后端慢查询日志、数据库连接池饱和等多源异构日志，M2.7穿透表象锁定根因为reviews.product_id缺失索引导致284万行全表扫描，单次查询耗时32秒，并逐层标注证据链。初始建议为CREATE INDEX；经追问“当前表行数与高峰期QPS”，模型推算出锁表风险（1–60分钟），转而建议采用pt-online-schema-change方案，体现对生产环境操作风险的自主识别与反思能力。

在处理716页英文招股书任务中，M2.7依指令提取2022–2025年前三季度六项核心财务指标，精度与Appendix I原文一致；构建双情景收入预测模型（乐观/保守）；生成含页眉页脚与嵌入表格的500字英文投资者摘要，面向港股散户阐明盈利模式、持续亏损原因及扭亏路径。全程耗时数分钟，远低于人工翻阅定位所需时间。

为支撑复杂约束下的稳定执行，M2.7专项优化长流程遵从能力。在Frontend Studio Skill中，其可稳定执行设计系统规范、动效引擎调度、Python脚本调用API生成真实素材、营销文案框架填充、质量检测等六个阶段，确保输出符合交付标准，将“AI生成网页”从随机结果转化为可重复工程流程。

MiniMax称“团队最高产成员即模型本身”。M2.5阶段该表述指高强度使用模型；M2.7阶段则意味着模型实质性参与研发决策：100轮Harness迭代由其自主运行，MLE-Bench自反馈循环由其自发构建，下一代模型部分训练方向亦有其参与。35天迭代周期反映的并非人力投入增加，而是数字员工持续工作、无需会议对齐、可夜间自主完成评测的生产力本质。AI研发速度上限正由模型自身能力决定，而非仅取决于工程师数量。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。