深圳市亿道信息股份有限公司「基于音频驱动的数字人生成方法、设备及计算机存储介质」专利公布(人工智能专利快讯)

天眼查App显示,2025年6月10日,「基于音频驱动的数字人生成方法、设备及计算机存储介质」正式进入专利公布阶段。申请人为深圳市亿道信息股份有限公司,该项人工智能专利涉及数字人说话生成技术领域。据专利信息显示,通过该技术能够实现面部动画与音频的高同步,显著优化了数字人说话的自然度。发明人为张治宇、刘远贵、谢建辉、张潮、伍俊龙、马鹏飞、王倩和胡伟。

本申请公开了一种基于音频驱动的数字人生成方法、设备及计算机存储介质。具体包括:提取输入音频的音频特征并分块处理获取音频驱动生成特征关键点;识别输入的人脸图像脸部关键点,确定待驱动人脸原始特征关键点;结合音频时序信息进行特征融合,最终基于融合关键点特征驱动数字人的面部表情和动作,生成与输入音频匹配的面部动画。此技术的应用将为虚拟主播、智能客服等场景提供更高质量的数字内容生成解决方案。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1