DeepMind发布Genie 3：首个支持实时交互的通用世界模型- DoNews

谷歌 DeepMind 宣布推出 Genie 3，这是一款通用世界模型，能够基于文本提示生成多样化的交互式环境，并支持实时导航（24 帧 / 秒），在 720p 分辨率下保持数分钟的环境一致性。

Genie 3 可根据文本描述生成多种动态环境，包括物理世界模拟（如火山地形中机器人避障、飓风来袭时的佛罗里达海岸，能精准呈现水流、光照等物理特性）、自然生态系统（从冰川湖沿岸的野生动物到深海热泉周围的贻贝群，细节涵盖生物行为与环境互动）、奇幻与动画场景（如彩虹桥上的绒毛生物、魔法森林中的树屋，支持虚构角色与奇幻设定）以及历史与地理场景（可还原阿尔卑斯山脉、威尼斯运河、克里特岛克诺索斯宫殿等）。其核心突破在于实时交互性：用户可实时导航生成的环境，模型可记住 1 分钟前的场景信息，确保长期物理一致性；还支持“可提示世界事件”，通过文本指令改变天气、引入物体等。

作为 DeepMind 十年模拟环境研究的成果，Genie 3 是首个支持实时交互的世界模型，为 AGI 研究奠定基础，可通过无限模拟环境训练 AI 代理，完成复杂任务，未来有望应用于教育、机器人训练等领域。

目前 Genie 3 存在动作空间有限、多代理交互模拟待突破、真实地点地理精度不足、交互时长仅数分钟等局限。该模型以“有限研究预览”形式发布，仅向少量学者和创作者开放，旨在收集反馈以完善风险管控。DeepMind 计划扩大测试范围，探索 Genie 3 在更多领域的应用，持续推进世界模型技术发展。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。