小红书开源高效能MOE模型dots.llm1系列

小红书近期开源了MOE模型dots.llm1系列,该模型总参数量达1420亿,在推理时仅激活140亿参数,性能可比肩Qwen2.5-72B等先进模型。

dots.llm1采用三阶段数据处理框架,使用高质量非合成语料进行预训练,并通过细粒度MoE架构(从128个专家中选择6个加上2个共享专家)和QK-Norm技术提升计算效率。模型支持32K长上下文,涵盖中英双语,基于MIT许可证开源,包含预训练基模型与指令微调模型。

此外,研究团队还开放了完整的训练过程中间检查点,以展示大模型的学习动态。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1