小米开源47亿参数具身智能VLA模型Xiaomi-Robotics-0

2月12日,小米机器人团队正式开源Xiaomi-Robotics-0,一个参数量达47亿的具身智能视觉语言动作(VLA)模型。该模型采用Mixture-of-Transformers(MoT)混合架构,在LIBERO、CALVIN和SimplerEnv三大仿真测试集的所有Benchmark中,性能超越30个对比模型,取得当前最优成绩。

Xiaomi-Robotics-0通过MoT架构将视觉语言大模型(VLM)与多层Diffusion Transformer(DiT)解耦:VLM负责处理模糊自然语言指令及空间关系认知;DiT则基于流匹配生成高频、连续的动作片段(Action Chunk)。该设计支持在消费级显卡上实现实时推理,缓解现有VLA模型因推理延迟导致真机动作断层的问题。

训练策略分为两阶段:第一阶段为跨模态预训练,引入Action Proposal机制,强制VLM在图像理解过程中同步预测多模态动作分布,完成特征空间与动作空间对齐;第二阶段冻结VLM,专项训练DiT从噪声中恢复精准动作序列。后训练阶段采用异步推理模式,解除模型推理与机器人执行的同步约束;Clean Action Prefix机制通过引入上一时刻动作输入保障轨迹连续性;Λ-shape Attention Mask则增强模型对当前视觉反馈的响应优先级,提升环境扰动下的反应敏捷性。

真机部署测试显示,搭载该模型的双臂机器人在积木拆解、叠毛巾等长时序、高自由度任务中表现出稳定的手眼协调能力,同时保留原有物体检测与视觉问答功能。项目代码、模型权重及技术文档已同步发布于GitHub与Hugging Face平台。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1