Meta开源MobileLLM:专精数理编程的小模型

Meta近日发布了MobileLLM-R1系列小语言模型,提供1.4亿、3.6亿和9.5亿三种参数版本,专为在本地移动设备等轻量级平台上运行而设计。

该模型并非通用聊天机器人模型,而是通过监督式微调(SFT)专门针对数学、编程(如Python、C++)和科学类问题进行优化。以最大的MobileLLM-R1 950M为例,其预训练仅使用约2TB高质量token,总训练数据不足5TB,但在多项基准测试中表现优异。

在MATH、GSM8K、MMLU和LiveCodeBench等测试中,其性能超越了使用36TB token训练的Qwen 3-0.6B模型。与现有开源小模型相比,MobileLLM-R1 950M在MATH测试中的准确率是Olmo 1.24B的5倍,SmolLM 1.7B的2倍,在编程任务中也优于这两个模型。

开发者可通过vLLM推理引擎部署MobileLLM-R1,只需在ModelRegistry中注册Llama4ForCausalLM架构即可运行。该系列模型已依据Apache 2.0协议开源,并发布于Hugging Face平台。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1