北京中科金财科技股份有限公司一种基于扩散模型的短剧人物视频翻译方法专利公布(人工智能专利快讯)

天眼查App显示,2025年5月6日,「一种基于扩散模型的短剧人物视频翻译方法」正式进入专利公布阶段。申请人为北京中科金财科技股份有限公司,该项人工智能专利涉及多模态视频处理与翻译技术领域。据专利信息显示,该方法实现了显著优化的视频翻译效果。发明人为高春洋、杨宏阳。

本发明公开了一种基于扩散模型的短剧人物视频翻译方法,涵盖从人脸检测到图像增强、身份信息提取、音频特征处理以及最终的换脸和口型对齐模型训练。具体步骤包括:将视频帧中的图片按固定尺寸进行切分,并与原始图像一起组成一个批次送入人脸检测模型;通过GPEN模型捕捉源人脸的细节特征并增强;利用CRNet增强目标图像的亮度和对比度;通过解耦网络对源人脸的细节特征进行有效分离;将音频信号输入AudioNet网络转换成降噪后的特征表示;并通过多模态的融合机制将换脸与口型对齐任务联合起来,进行端到端的训练。确保在多模态输入下生成自然流畅的视频翻译效果。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1