Stable Audio 2.5 发布,音频生成速度显著提升

Stability AI 正式发布企业级音频生成模型 Stable Audio 2.5,该版本在音频细节和生成速度方面进行了显著优化,宣称可在 2 秒钟内生成 3 分钟的音频曲目。

Stable Audio 2.5 在音乐生成能力方面有重要改进,生成的音频更符合实际编曲逻辑,可呈现前奏、发展与结尾等完整多段式结构。同时,模型对提示词的理解能力提升,特别是在情绪描述和音乐风格词汇方面,响应更符合用户预期。

音频生成速度的提升主要得益于后训练方法 ARC(Adversarial Relativistic-Contrastive)的应用,该技术结合相对式对抗训练与对比判别器,加速了扩散模型的生成过程,在保证音轨质量的同时显著降低 GPU 推理耗时。

此外,新版本还引入音频修补功能,用户可导入已有音频文件并指定“延展位置”,模型将根据音频内容及整体风格自动延长音频,适用于剪辑等应用场景。

目前,Stable Audio 2.5 可通过 StableAudio 官网试用,并支持本地化部署。用户上传的音频文件需不包含受版权保护的内容,系统将通过自带的内容识别机制进行检测,以确保合法使用。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1