MiniMax与Kimi技术路线之争：全注意力与高效注意力的较量- DoNews

10月29日，月之暗面研究员周昕宇在X平台转发MiniMax M2技术博客并评论“Minimax don't worry, Kimi got your back?”，同日在知乎留下相同言论。该言论被广泛解读为对MiniMax放弃高效注意力机制的公开回应。

两天后，10月31日，MiniMax预训练负责人孙浩海在知乎与X发布技术博文，解释M2为何回归Full Attention架构。其核心原因包括：工程链路复杂性随注意力变体增加呈指数级上升；小规模实验无法外推至大规模复杂多跳推理任务；Linear Attention在训练中面临访存瓶颈，推理端需解决低精度存储、Prefix Cache与投机解码等基建问题。

孙浩海指出，尽管团队尝试了Gated Delta Net（GDN）与Mamba2等线性注意力变体，但在BBH等推理密集型基准测试中表现弱于全注意力模型。他同时澄清，在当前GPU发展速度下，Full Attention的主要矛盾是成本而非时延。

次日，10月30日，月之暗面正式发布Kimi Linear——一个48B总参数、3B激活参数的MoE混合注意力模型，支持1M tokens上下文，训练数据达5.7T tokens，并开源模型权重、代码及技术报告。从M2发布到Kimi Linear上线，间隔仅72小时。

Kimi Linear采用Kimi Delta Attention（KDA），基于Gated DeltaNet引入通道级门控机制，实现细粒度记忆控制。其计算效率较标准DPLR提升约100%。模型采用3:1混合比例，每3层KDA搭配1层MLA（Multi-head Latent Attention），经消融实验证明此比例在性能与效率间达到最优平衡。

MLA层不使用位置编码（NoPE），由KDA层统一处理位置信息，提升推理效率并增强长上下文泛化能力。技术报告显示，Kimi Linear在长上下文任务中KV Cache减少75%，解码吞吐量提升6倍，TPOT从11.48ms降至1.84ms。

在RULER基准（128k context）中，Kimi Linear得分为84.3，速度为MLA的3.98倍，被描述为“Pareto-optimal”。其scaling law验证显示Loss函数优于全注意力架构，实现约1.16倍计算效率增益。

为验证复杂多跳推理能力，Kimi团队设计Palindrome、MQAR与Stack三项合成任务，KDA在所有任务中均达到100%准确率，而GDN与Mamba2在长序列场景下失败。技术报告宣称，这是首次在公平对比下全面超越全注意力机制，涵盖短上下文、长上下文与强化学习扩展场景。

Kimi Delta Attention算子已被集成进vLLM主干代码库，成为主流开源推理框架原生支持的注意力实现之一。此举显著降低外部部署门槛，推动高效注意力技术生态发展。

MiniMax选择Full Attention路线，强调稳定性与工程可控性，依赖GPU进步缓解成本压力；Kimi则通过KDA+MLA混合架构主动优化效率，系统性解决工程难题。DeepSeek采用MLA压缩KV-cache，Mistral引入滑动窗口稀疏模式，OpenAI与Anthropic未公开细节，业内推测以全注意力加速为主。

两种路径反映行业对效率与性能权衡的不同判断：MiniMax以时间换空间，Kimi以空间换时间。目前尚无定论哪种路线更具长期优势。但双方的技术透明与公开讨论，正推动大模型注意力机制的多路径探索。

月之暗面与MiniMax同为中国头部通用大模型公司，在长上下文、代码生成、Agent能力及开源生态领域直接竞争。技术路线差异不仅体现工程哲学分歧，也影响资本市场认知与长期竞争力格局。这场关于Attention机制的技术博弈，已成为行业瞩目的“注意力之争”。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。