如何让机器人在任务指引和实时观测的基础上规划未来动作是具身智能领域的一个核心问题,其受“模态对齐”和“数据稀缺”制约。智元机器人团队提出了一种名为 EnerVerse 的新架构,通过自回归扩散模型(autoregressive diffusion),在生成未来具身空间的同时引导机器人完成复杂任务。
不同于现有方法简单应用视频生成模型,EnerVerse 深度结合了具身任务需求,创新性地引入稀疏记忆机制(Sparse Memory)与自由锚定视角(Free Anchor View, FAV)。这不仅提升了 4D 生成能力,还在动作规划性能上实现了重大突破。
实验结果表明,EnerVerse 不仅具备强大的未来空间生成能力,在机器人动作规划任务中也达到了当前最优(SOTA)表现。目前,项目主页与论文《EnerVerse:设想机器人操作的具身未来空间》已上线,模型与相关数据集即将开源。
EnerVerse 主要科研成员来自智元机器人研究院具身算法团队。论文共同一作黄思渊是上海交通大学与上海人工智能实验室的联培博士生,师从 CUHK-MMLab 的李鸿升教授,研究课题为基于多模态大模型的具身智能以及高效智能体的研究。另一位共同一作陈立梁是智元机器人的具身算法专家,主要负责具身空间智能与世界模型的研究。