阿里云通义团队发布新一代基础模型架构Qwen3-Next,并开源基于该架构的80B参数模型。新架构融合混合注意力机制、高稀疏度MoE结构与多token预测机制,显著提升长上下文和大规模参数下的训练与推理效率。

Qwen3-Next-80B模型以仅激活30亿参数实现接近32B密集模型的性能,训练成本降低至十分之一以下,长上下文推理吞吐提升超十倍。该模型原生支持262K上下文,可扩展至约百万tokens,部分评测表现接近或超越业界先进模型。

模型已通过Hugging Face开源,支持多种框架部署。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1