2026年3月17日,在第四届具身智能机器人产业发展论坛上,地平线研究院机器人实验室具身操作方向负责人林天威介绍了全栈开源的视觉-语言-动作(VLA)基座模型HoloBrain-0。
林天威指出,当前具身智能在通用化进程中面临模型深度、广度与长度三大挑战。HoloBrain-0通过创新的“本体感知”架构、高效数据策略及全栈开源生态予以应对。该模型在仿真与真实世界任务中均取得业界领先效果,其轻量化版本验证了在端侧芯片高效部署的可行性。
HoloBrain-0显式融合机器人本体信息,构建“统一基座坐标系”,将多视角图像特征与机器人6D位姿投影至共同空间,支持人类操作视频等多样化数据输入。模型内置“空间增强器”,利用相机内外参与深度信息提升三维空间感知能力;动作输出采用“混合相对动作空间”,同步生成关节相对转角与末端执行器相对运动,增强空间泛化能力,并原生兼容VR遥操作等异构数据源。
地平线同步推出全栈开源基建框架RoboOrchard,覆盖数据采集、模型训练至端侧部署全流程。其中,RoboOrchard Deploy提供可视化标定与实时质量校验;RoboOrchard DataRecorder支持图形化操作与数据质量监控;RoboOrchard Video为功能完备的FFmpeg Python封装库,显著简化视频处理流程。该框架解决了行业中标定繁琐、数据格式不统一、轨迹不连续及推理模式单一等痛点。
HoloBrain-0提供两个预训练版本:基于GroundingDINO的0.2B轻量版与基于Qwen2.5-VL的1.1B版。在仿真RoboTwin2.0基准50项任务中,两版本平均成功率均超90%,优于现有模型。在真实机器人实验中,模型在叠毛巾、折纸盒、叠衣服等长程灵巧任务及任意物体抓取任务中表现优异;尤其在“任意物体抓取”任务中,经多样物体混合训练后,对未见过的异形或柔性物体仍保持高成功率。地平线另提出SimplerTC异步推理策略,使推理效率提升30%以上,同时提高复杂任务成功率。
地平线研究院聚焦具身智能基础算法与框架研发,设有Manipulation、Mobility和Real2Sim三大研究方向,致力于推动通用机器人工业化落地。HoloBrain-0的发布标志着其在VLA基座模型领域的关键技术突破,亦体现其通过全栈开源赋能行业的实践路径。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



