厦门亿联网络技术股份有限公司「一种基于AI的实时音频合成方法、装置、系统及声码器」专利公布(语音处理专利快讯)

天眼查App显示,2025年5月30日,「一种基于AI的实时音频合成方法、装置、系统及声码器」正式进入专利公布阶段。申请人为厦门亿联网络技术股份有限公司,该项语音处理专利涉及基于AI的实时音频合成技术,能够显著优化语音合成的实时性,并保障语音内容的正确性。据专利信息显示,本申请通过构建多层次残差融合模块,确保每次上采样层的输入特征均包含以前的音频特征和实时推理,从而实现突破性进展。发明人为黄星荣、吴松杰。

专利摘要指出,本申请公开了一种基于AI的实时音频合成方法、装置、系统及声码器,其方法包括:基于MelGAN网络,将原生成器替换为用于学习多层次声学特征的多层次波形生成器,在每层上采样层后增加残差融合层,构建初始AI声码器模型;对初始AI声码器模型进行迭代训练,得到目标AI声码器模型输出;获取待合成音频的Mel频谱图,输入目标AI声码器模型中,得到目标音频。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1