DeepMind发布Genie 3:首个支持实时交互的通用世界模型

谷歌 DeepMind 宣布推出 Genie 3,这是一款通用世界模型,能够基于文本提示生成多样化的交互式环境,并支持实时导航(24 帧 / 秒),在 720p 分辨率下保持数分钟的环境一致性。

Genie 3 可根据文本描述生成多种动态环境,包括物理世界模拟(如火山地形中机器人避障、飓风来袭时的佛罗里达海岸,能精准呈现水流、光照等物理特性)、自然生态系统(从冰川湖沿岸的野生动物到深海热泉周围的贻贝群,细节涵盖生物行为与环境互动)、奇幻与动画场景(如彩虹桥上的绒毛生物、魔法森林中的树屋,支持虚构角色与奇幻设定)以及历史与地理场景(可还原阿尔卑斯山脉、威尼斯运河、克里特岛克诺索斯宫殿等)。其核心突破在于实时交互性:用户可实时导航生成的环境,模型可记住 1 分钟前的场景信息,确保长期物理一致性;还支持“可提示世界事件”,通过文本指令改变天气、引入物体等。

作为 DeepMind 十年模拟环境研究的成果,Genie 3 是首个支持实时交互的世界模型,为 AGI 研究奠定基础,可通过无限模拟环境训练 AI 代理,完成复杂任务,未来有望应用于教育、机器人训练等领域。

目前 Genie 3 存在动作空间有限、多代理交互模拟待突破、真实地点地理精度不足、交互时长仅数分钟等局限。该模型以“有限研究预览”形式发布,仅向少量学者和创作者开放,旨在收集反馈以完善风险管控。DeepMind 计划扩大测试范围,探索 Genie 3 在更多领域的应用,持续推进世界模型技术发展。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1