腾讯开源混元语音数字人模型,可让图中人物说话唱歌

腾讯现已开源混元语音数字人模型,仅需一张图片和一段音频即可让图中主角自然地说话或唱歌。

此次发布的开源模型名为 HunyuanVideo-Avatar,由腾讯混元视频大模型(HunyuanVideo)与腾讯音乐天琴实验室 MuseV 技术联合研发。该模型支持头肩、半身及全身景别,同时覆盖多风格、多物种以及双人场景,为视频创作者提供高一致性与高动态性的视频生成能力。

用户上传人物图像和音频后,HunyuanVideo-Avatar 模型能够自动解析图片与音频内容,包括人物所在环境和音频情感等信息,从而生成包含自然表情、唇形同步和全身动作的视频。

免责声明:本文内容由开放的智能模型自动生成,仅供参考。

最新文章
Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1