EMO机器人AI自学对口型技术突破
哥伦比亚大学创意机器实验室研发名为EMO的机器人面部系统,旨在解决仿人机器人“恐怖谷”效应中的唇形与语音同步问题。
该系统采用柔软硅胶皮肤覆盖,内部集成26个微型电机,通过协同运作牵引皮肤,实现微笑、惊讶等复杂面部表情及唇形变化。
EMO具备自我学习能力,利用“视觉-动作”语言模型,在镜前进行数千次随机面部运动,通过摄像头观察自身,分析电机指令与面部表情间的因果关系,建立本体感官模型。
在进阶训练中,EMO观看数小时人类说话和唱歌的YouTube视频,将音频特征与口型变化关联,映射听觉与视觉信号。
结合VLA模型,EMO可在合成语音时实时生成高度吻合的唇部动作,并能提前几毫秒预判并调整口型。
目前系统在处理“B”和“W”等闭唇音时仍有细微瑕疵,研究人员表示随训练数据增加可逐步优化。
未来计划将EMO与ChatGPT或Gemini等先进对话式AI整合,提升交互自然度。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



