小米开源47亿参数具身智能VLA模型Xiaomi-Robotics-0- DoNews

DoNews > 公司新闻 > 小米开源47亿参数具身智能VLA模型Xiaomi-Robotics-0

小米开源47亿参数具身智能VLA模型Xiaomi-Robotics-0

推荐 2026-02-12 14:30:03

2月12日，小米机器人团队正式开源Xiaomi-Robotics-0，一个参数量达47亿的具身智能视觉语言动作（VLA）模型。该模型采用Mixture-of-Transformers（MoT）混合架构，在LIBERO、CALVIN和SimplerEnv三大仿真测试集的所有Benchmark中，性能超越30个对比模型，取得当前最优成绩。

Xiaomi-Robotics-0通过MoT架构将视觉语言大模型（VLM）与多层Diffusion Transformer（DiT）解耦：VLM负责处理模糊自然语言指令及空间关系认知；DiT则基于流匹配生成高频、连续的动作片段（Action Chunk）。该设计支持在消费级显卡上实现实时推理，缓解现有VLA模型因推理延迟导致真机动作断层的问题。

训练策略分为两阶段：第一阶段为跨模态预训练，引入Action Proposal机制，强制VLM在图像理解过程中同步预测多模态动作分布，完成特征空间与动作空间对齐；第二阶段冻结VLM，专项训练DiT从噪声中恢复精准动作序列。后训练阶段采用异步推理模式，解除模型推理与机器人执行的同步约束；Clean Action Prefix机制通过引入上一时刻动作输入保障轨迹连续性；Λ-shape Attention Mask则增强模型对当前视觉反馈的响应优先级，提升环境扰动下的反应敏捷性。

真机部署测试显示，搭载该模型的双臂机器人在积木拆解、叠毛巾等长时序、高自由度任务中表现出稳定的手眼协调能力，同时保留原有物体检测与视觉问答功能。项目代码、模型权重及技术文档已同步发布于GitHub与Hugging Face平台。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。

迈从北京首店正式开业，线下布局进入核心城市阶段迈从北京首店正式开业，线下布局进入核心城市阶段

吉利第五代帝豪车型限时售 6.59 万元起吉利开启420万豪友感恩季，第5代帝豪限时6.59万元起，享六重礼遇；上市16年销量破420万辆，搭载1.5L或1.5TD动力。

明视脑机完成1.5亿元天使轮系列融资明视脑机一年半内完成三轮系列融资共1.5亿元，获多元资本加持，加速视觉重建脑机接口临床转化，巩固全球第一梯队地位。

红果短剧回应“AI偷脸”：下架《桃花簪》，涉事方被暂停上传15天红果短剧下架AI生成短剧《桃花簪》，因出品方无法证明肖像授权合规，暂停其上传权限15天，并强化AI内容审核机制。

搭载第二代刀片电池、闪充技术：比亚迪2026款海豹06GT新车主交车仪式开启比亚迪2026款海豹06GT上市即交付，售价12.89万-16.99万元，搭载第二代刀片电池、闪充技术（5分钟快充）、DiPilot 300智驾及云辇-C系统。

通用汽车今年第一季度在华销量约 35 万辆通用汽车2026年一季度在华零售销量约35万辆；别克MPV家族全覆盖，凯迪拉克XT5销量增29%，五菱星光系列热销。

耀速科技完成超2亿元A轮融资耀速科技完成超2亿元A轮融资，将用于构建人源化器官芯片与AI融合的3D生物智能平台，加速FDA监管认证及药物研发新范式落地。

天华新能年营收75亿：净利同比降56% 天华新能2025年营收75.49亿元，锂电材料占88.3%；净利4.57亿元，同比下降55.6%，毛利率与利润率持续下滑。

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号