谷歌 DeepMind 官方于8月5日发布博文,宣布推出名为 Genie 3 的“世界模型”。该模型能够让 AI 系统与逼真的现实世界模拟互动,被视为朝着通用人工智能(AGI)迈出的重要一步。
据介绍,Genie 3 可用于训练机器人和自动驾驶车辆,使其在仓库等环境的真实再现中互动。谷歌 DeepMind 人工智能部门的专家认为,世界模型是实现 AGI 的关键步骤。AGI 是一种假想的人工智能水平,系统不仅能够执行单一任务,如下棋或翻译语言,还能够胜任大多数与人类相当的任务,甚至可能取代某些工作岗位。DeepMind 表示,这些模型将在开发自主执行任务的 AI 代理或系统中发挥重要作用。
与前代模型(如 Genie 1/2)和视频生成模型(如 Veo 2)相比,Genie 3 是首个允许实时交互的世界模型。相比 Genie 2,其一致性和真实感均有所提升。
Genie 3 的核心能力包括模拟世界的物理特性。该模型具备对物理规律的深刻理解,能够逼真地模拟水流、光影变化以及复杂的环境互动,例如直升机在悬崖瀑布边小心翼翼地机动。同时,它能够模拟自然世界,从冰川湖畔充满生机的生态系统到幻想世界中可爱的毛茸茸生物在彩虹桥上跳跃,均可实现。
在动画和小说建模方面,Genie 3 可以创造奇幻的场景和富有表现力的动画角色。它还能探索不同地域与历史场景,超越地理和时间的限制,例如让用户身穿翼装飞越雪山,或置身于历史悠久的古城。
Genie 3 在实时性能方面实现了突破,具备高度可控性和实时交互性。在每一帧的自回归生成过程中,该模型必须考虑先前生成的随时间增长的轨迹。例如,如果用户在一分钟后重新访问某个位置,模型必须引用一分钟前的相关信息。为实现这一能力,系统每秒需多次进行计算以响应新用户输入。
长时程环境一致性是 Genie 3 的另一关键能力。为了让人工智能生成的世界具有沉浸感,其必须在长时间内保持物理一致性。由于自回归生成环境比生成整个视频更具技术挑战,误差往往会随时间累积。Genie 3 能在几分钟内基本保持一致性,视觉记忆可追溯至一分钟前,并根据用户描述和操作逐帧创建更加动态和丰富的世界。
Genie 3 还支持可提示的世界事件(Promptable World Events),提供基于文本的交互形式。该功能可改变生成的世界,例如改变天气条件或引入新的物体和角色,从而增强导航控制体验。这种能力还扩展了反事实或“假设”场景的广度,代理可利用这些场景从经验中学习应对意外情况。
然而,谷歌表示 Genie 3 尚未准备好全面公开上市,并未公布具体发布日期。同时,该模型仍存在一些局限性。这一声明是在人工智能市场竞争日益激烈的背景下发布的。
谷歌指出,其世界模型还可帮助人类进行各种模拟训练或探索,例如滑雪或绕山湖漫步。Genie 3 能够根据文本提示立即创建场景,且模拟环境可快速更改,如通过文本提示在滑雪坡上引入一群鹿。
谷歌本周一向记者展示了 Genie 3 创建的滑雪和仓库场景,但尚未公开模型。据《卫报》报道,这些模拟的质量与谷歌最新视频创作模型 Veo 3 相当,但持续时间是 Veo 3 的八秒。
尽管 AGI 被视为可能影响白领工作岗位,因其可执行从销售代理到律师或会计师等多种角色,但谷歌认为世界模型是开发机器人和自动驾驶车辆的关键技术。例如,一个具有真实物理和人物的仓库再现可帮助训练机器人,使其在训练中从模拟中“学习”,以更好地实现目标。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。