10月29日,月之暗面研究员周昕宇在X平台转发MiniMax M2技术博客并评论“Minimax don't worry, Kimi got your back?”,同日在知乎留下相同言论。该言论被广泛解读为对MiniMax放弃高效注意力机制的公开回应。
两天后,10月31日,MiniMax预训练负责人孙浩海在知乎与X发布技术博文,解释M2为何回归Full Attention架构。其核心原因包括:工程链路复杂性随注意力变体增加呈指数级上升;小规模实验无法外推至大规模复杂多跳推理任务;Linear Attention在训练中面临访存瓶颈,推理端需解决低精度存储、Prefix Cache与投机解码等基建问题。
孙浩海指出,尽管团队尝试了Gated Delta Net(GDN)与Mamba2等线性注意力变体,但在BBH等推理密集型基准测试中表现弱于全注意力模型。他同时澄清,在当前GPU发展速度下,Full Attention的主要矛盾是成本而非时延。
次日,10月30日,月之暗面正式发布Kimi Linear——一个48B总参数、3B激活参数的MoE混合注意力模型,支持1M tokens上下文,训练数据达5.7T tokens,并开源模型权重、代码及技术报告。从M2发布到Kimi Linear上线,间隔仅72小时。
Kimi Linear采用Kimi Delta Attention(KDA),基于Gated DeltaNet引入通道级门控机制,实现细粒度记忆控制。其计算效率较标准DPLR提升约100%。模型采用3:1混合比例,每3层KDA搭配1层MLA(Multi-head Latent Attention),经消融实验证明此比例在性能与效率间达到最优平衡。
MLA层不使用位置编码(NoPE),由KDA层统一处理位置信息,提升推理效率并增强长上下文泛化能力。技术报告显示,Kimi Linear在长上下文任务中KV Cache减少75%,解码吞吐量提升6倍,TPOT从11.48ms降至1.84ms。
在RULER基准(128k context)中,Kimi Linear得分为84.3,速度为MLA的3.98倍,被描述为“Pareto-optimal”。其scaling law验证显示Loss函数优于全注意力架构,实现约1.16倍计算效率增益。
为验证复杂多跳推理能力,Kimi团队设计Palindrome、MQAR与Stack三项合成任务,KDA在所有任务中均达到100%准确率,而GDN与Mamba2在长序列场景下失败。技术报告宣称,这是首次在公平对比下全面超越全注意力机制,涵盖短上下文、长上下文与强化学习扩展场景。
Kimi Delta Attention算子已被集成进vLLM主干代码库,成为主流开源推理框架原生支持的注意力实现之一。此举显著降低外部部署门槛,推动高效注意力技术生态发展。
MiniMax选择Full Attention路线,强调稳定性与工程可控性,依赖GPU进步缓解成本压力;Kimi则通过KDA+MLA混合架构主动优化效率,系统性解决工程难题。DeepSeek采用MLA压缩KV-cache,Mistral引入滑动窗口稀疏模式,OpenAI与Anthropic未公开细节,业内推测以全注意力加速为主。
两种路径反映行业对效率与性能权衡的不同判断:MiniMax以时间换空间,Kimi以空间换时间。目前尚无定论哪种路线更具长期优势。但双方的技术透明与公开讨论,正推动大模型注意力机制的多路径探索。
月之暗面与MiniMax同为中国头部通用大模型公司,在长上下文、代码生成、Agent能力及开源生态领域直接竞争。技术路线差异不仅体现工程哲学分歧,也影响资本市场认知与长期竞争力格局。这场关于Attention机制的技术博弈,已成为行业瞩目的“注意力之争”。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



