科技媒体 The Decoder 报道称,谷歌 DeepMind 联合哥伦比亚大学和加州大学圣地亚哥分校的研究人员开发了一款名为 CAT4D 的 AI 系统。该系统能够将普通视频转化为动态 3D 场景,大大降低了 3D 内容创作的门槛,为多个行业带来了新的可能性。
CAT4D 系统利用扩散模型,将单视角拍摄的视频转换为多视角视图,并构建为动态 3D 场景,用户可以从不同角度观看视频中的主体,仿佛置身其中。以往实现类似效果需要多台摄像机同时录制同一场景,而 CAT4D 则简化了这一流程,只需普通视频素材即可。这项技术有望革新游戏开发、电影制作和增强现实等领域。
在训练过程中,DeepMind 团队发现缺乏足够的现有数据,因此他们混合了真实世界的镜头与计算机生成的内容进行训练。训练数据包括静态场景的多视图图像、单视角视频和合成 4D 数据,通过扩散模型学习,在特定时刻从特定角度创建图像。
目前,CAT4D 所生成的 3D 场景虽然比原始素材短,但成像质量已优于同类系统。该技术具有广泛的应用前景,游戏开发者可以利用它创建虚拟环境,电影制作人和 AR 开发者也可以将其融入到工作流程中。