近日,科技媒体 New Atlas 报道称,哥伦比亚大学创意机器实验室(Creative Machines Lab)开发了一款名为 EMO 的机器人面部系统,旨在解决仿人机器人”恐怖谷”效应中的关键问题——实现唇形与语音的精确同步。

与传统预编程机器人不同,EMO 拥有强大的自适应学习能力。它能够通过观察人类行为来优化面部表情,展现出类似《西部世界》中智能机器人的自然交互体验。
在设计上,EMO 采用了创新的软硬件结合方案。其面部并未使用传统的刚性外壳,而是覆盖了一层质地接近真实人类皮肤的柔软硅胶。在这层皮肤下,巧妙布置了26个微型电机(致动器)。
这些微型电机通过复杂的协同运作,能够精细控制皮肤运动,从而实现丰富的面部表情和精准的唇形变化。这种独特的硬件架构赋予了 EMO 极高的自由度,使其能够模拟从微笑到惊讶等多种复杂表情。
为了使 EMO 掌握面部控制技巧,研究团队开发了一套”视觉-动作”(Vision-to-Action, VLA)语言模型。在初始训练阶段,研究人员将EMO置于镜子前,让它随机进行数千次面部运动。
通过摄像头观察自身动作,EMO学习分析电机指令与面部表情之间的因果关系。这一过程类似于人类婴儿通过模仿和观察来控制肌肉的动作模式,从而建立了内部的本体感官模型。
在完成基础运动模型构建后,EMO进入了高级训练阶段。它观看了大量人类说话和唱歌的YouTube视频。系统通过分析视频中的音频特征与口型变化,成功建立了听觉信号与视觉信号之间的映射关系。
结合先前建立的VLA模型,EMO实现了在合成语音播放的同时,实时生成高度匹配的唇部动作。更令人惊叹的是,它甚至能够在发声前几毫秒提前预测并调整口型。
尽管目前EMO在处理”B”和”W”等闭唇音时仍存在细微缺陷,但其核心技术架构已显示出巨大潜力。研究团队表示,随着训练数据的不断增加,这些技术瓶颈将逐步被克服。未来计划将EMO与ChatGPT或Gemini等先进对话式AI结合,进一步提升人机交互体验。
附上参考地址
-
A Robot Learns to Lip Sync
-
Learning realistic lip motions for humanoid face robots
-
Lip-syncing robot watches your face to speak like you