科学家开发 DIRFA：输入图片和音频，可生成说话视频- DoNews

DoNews > 公司新闻 > 科学家开发 DIRFA：输入图片和音频，可生成说话视频

科学家开发 DIRFA：输入图片和音频，可生成说话视频

IT之家 2023-11-17 11:25:37

来自新加坡南洋理工大学（NTU Singapore）的科研团队近日开发出了 DIRFA 工具，用户给一张图片以及音频内容，可以自动生成 3D 视频，并实现口型和声音的同步协调。

DIRFA 的全称为 DIverse yet Realistic Facial Animations，训练了超过 6000 多人的 100 万个视频片段，音频片段来自一个名为 VoxCeleb2 数据集的开源数据库，并关联面部表情和头部运动。

研究人员表示，DIRFA 可能会在包括医疗保健在内的各个行业和领域带来新的应用，因为它可以实现更复杂和逼真的虚拟助手和聊天机器人，从而改善用户体验。

DIRFA 还可以作为言语或面部残疾人士的强大工具，帮助他们通过富有表现力的头像或数字表示来传达他们的想法和情感，从而增强他们的沟通能力。

IT之家附上论文参考地址：Rongliang Wu, Yingchen Yu, Fangneng Zhan, Jiahui Zhang, Xiaoqin Zhang, Shijian Lu. Audio-driven talking face generation with diverse yet realistic facial animations. Pattern Recognition, 2023; 144: 109865 DOI: 10.1016/j.patcog.2023.109865

本文转载自IT之家，转载目的在于传递更多信息，并不代表本站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请联系IT之家通知我方删除，我方将在收到通知后第一时间删除内容！本文只提供参考并不构成任何投资及应用建议。本站拥有对此声明的最终解释权。

反内卷中国汽车工业协会发重要倡议中汽协倡议车企避免价格战，维护公平竞争，推动新能源汽车健康发展。

速腾聚创一季报：机器人业务爆发推升毛利百万级订单开辟增长新赛道速腾聚创2025年Q1财报显示，毛利增73.1%，机器人业务增速迅猛，车载激光雷达市占率全球第一，推进数字化技术升级。

《开始推理吧3》：推理“朋综”养成记｜专访开出8.5分的《开推3》，离不开赫丽摸金宇。

数据胜于雄辩，谁还敢传“车圈有恒大”？语出惊人不如脚踏实地

尊界S800车载小艺：一个能翻译、会规划、懂创作的“出行超级助理” 尊界S800车载小艺：一个能翻译、会规划、懂创作的“出行超级助理”

传华为云中国区总裁一职将迎新掌舵人，张修征换岗华为云中国区总裁张修征或将换岗，其已在兼任ICT相关岗位，调整尚未完全落地。

霸王茶姬公布上市后首份季报 GMV同比增速达38% 霸王茶姬公布一季度财报，净收入33.9亿同比增长35.4%，全球门店6681家，海外增速显著，用户破1.9亿。

比亚迪李云飞：主流车企根本不存在所谓的车圈恒大比亚迪回应‘汽车圈恒大’言论，称中国主流车企财务状况优于国外车企，不存在‘车圈恒大’，将追究恶意抹黑方法律责任。

关于我们| 电子协议| 合作联系| 蜀ICP备2024059877号-1

网站信息

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1
联系地址：北京市海淀区宝盛东路兴华绿色产业楼3层307室（东升地区）
邮箱：jubao@infinities.com.cn
网上有害信息举报专区: www.12377.cn

Copyright © DoNews 2000-2025 All Rights Reserved
蜀ICP备2024059877号-1

京公网安备11010802023059号