字节跳动 Seed 推出 GR-RL,机器人首次完成真机穿鞋带

字节跳动 Seed Research 团队正式发布最新研究成果 GR-RL,在真实机器人平台上首次实现了「连续为整只鞋穿鞋带」的复杂操作。字节跳动称,这一突破标志着视觉-语言-动作(VLA)模型在精细灵巧任务上的能力边界被显著拓展。

团队指出,主流模仿学习存在两大缺陷:人类演示数据的「次优性」以及训练与推理之间的「执行错位」,导致模型在毫米级精度任务中频繁失败。

为此,Seed 团队选择真机强化学习路径,提出了多阶段训练框架,包括离线数据筛选、数据增强以及在线强化学习。在双臂机器人 ByteMini-v2 上,GR-RL 将穿鞋带任务成功率从监督学习基线 GR-3 的 45.7% 提升至 83.3%,失败率减少近 70%。

其中,数据过滤、镜像增强和在线强化学习均对性能提升贡献显著。实验中,模型展现出类似人类的「纠错智能」,在鞋带滑落或摆放位置不佳时能主动调整并重试,体现了对任务物理逻辑的理解,而非单纯轨迹记忆。团队认为,强化学习经验应进一步蒸馏回基础 VLA 模型,以构建兼具高精度操作与强大泛化能力的通用策略。

最新文章
Copyright © DoNews 2000-2026 All Rights Reserved
蜀ICP备2024059877号-1