天眼查App显示,2025年6月6日,「一种基于多模态大模型的数字人生成方法和装置」正式进入专利公布阶段。申请人为北京神州泰岳软件股份有限公司,该项人工智能专利涉及数字人生成技术领域,可突破传统基于姿态关键点或三维表示的生成局限性,生成目标部位表现细腻自然的数字人形象。据专利信息显示,该技术实现了显著优化。发明人为刘鹏、韩文静、王晓君、陈阵、郑欣欣。「本申请提供了一种基于多模态大模型的数字人生成方法和装置,涉及数字人生成技术领域,突破了传统基于姿态关键点或三维表示的生成局限性,能生成在目标部位表现细腻自然的数字人形象。方法包括:获取用户输入的多模态数据并基于多模态大模型进行意图识别和情感分析,确定响应文本数据对应的音频序列数据;获取参考图像数据的视觉特征向量表示;根据人物的目标部位在参考图像数据中的位置,确定目标部位对应的掩码特征向量表示;基于扩散模型依据音频序列数据、视觉特征向量表示、掩码特征向量表示,对至少一个噪声向量表示进行去噪处理,生成至少一帧数字人的图像数据;根据至少一帧数字人的图像数据和音频序列数据,生成带有语音的数字人动画。」
免责声明:本文内容由开放的智能模型自动生成,仅供参考。