阿里通义发布下一代基础模型架构Qwen3-Next和基于新架构的模型Qwen3-Next-80B-A3B,包含指令模型和推理模型。
新架构相比Qwen3的MoE结构,引入混合注意力机制、高稀疏度MoE结构、训练稳定优化机制以及多token预测机制。
新模型采用全球首创混合架构,75%采用线性注意力机制,25%采用原创门控注意力机制,总参数80B只需激活3B即可媲美Qwen3旗舰版235B模型。
Qwen3-Next模型训练成本较密集模型Qwen3-32B大降超90%,长文本推理吞吐量提升10倍以上,预训练仅需15T tokens。
Qwen3-Next通过更精密的高稀疏MoE架构设计,实现1比50的激活比,创下业界新高。
新模型指令模型性能表现与Qwen3-235B-A22B-Instruct-2507持平,推理模型表现优于Gemini-2.5-Flash-Thinking。
新模型已在魔搭社区和HuggingFace开源,开发者可通过Qwen Chat免费体验或调用阿里云百炼平台API服务。
Pine AI联合创始人李博杰表示,Qwen3-Next采用混合注意力机制和高稀疏MoE架构,大幅提升效率。
李博杰指出,Qwen3-Next在预训练时采用多Token预测技术MTP,模型推理速度大幅提升,并达到谷歌Gemini 2.5 flash水平。
阿里通义近期推出Qwen3-Max-Preview、Qwen-Image-edit、Qwen3-ASR-Flash等模型,衍生模型数已超17万。
沙利文数据显示,中国企业级大模型调用量2025年上半年日均较2024年底增长363%,阿里通义占比17.7%位列第一。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。