阿里通义大模型语音团队推出「空间音频生成」模型——OmniAudio,该模型能够直接从360°视频生成FOA(First-order Ambisonics)空间音频。
为实现这一目标,团队定义了360V2SA任务(360-degree Video to Spatial Audio),旨在解决如何利用全景视频生成匹配的空间音频问题。
由于配对的360°视频和空间音频数据稀缺,通义实验室构建了Sphere360数据集。这一数据集包含超过10.3万个真实世界视频片段,涵盖288种音频事件,总时长288小时,均为高质量的360°视频及相应FOA空间音频。
目前,OmniAudio已开源,包括代码、数据仓库及相关技术论文均已上架GitHub。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。