## 机器人通过观看视频学习真实的嘴部动作

AI资讯3周前发布 ainav
31 0

1月19日,在哥伦比亚大学的工程实验室中,一个革命性的人形机器人首次展示了令人惊叹的唇部动作能力。这项由创意机器实验室主导的研究突破表明,通过纯视觉学习,机器人能够掌握自然流畅的说话和歌唱所需的唇部动作。

## 机器人通过观看视频学习真实的嘴部动作

这一成果标志着人形机器人研究领域的一个重要里程碑。尽管机器人的运动能力和灵活性已达到较高水平,但面部表情尤其是与语言相关的唇部动作始终是一个难以解决的技术难题。

即使是目前最先进的机器人模型,在展示唇部动作时也常常显得机械呆板,这种不自然的表现容易引发”恐怖谷效应”。人类对这种细微的违和感极为敏感,这也是研究人员长期以来面临的重大挑战。

为了解决这一难题,研究团队采用了创新的学习方法。他们没有像传统做法那样为每个音素制定详细规则,而是让机器人通过观察和模仿来学习唇部动作的力学原理。机器人的面部配备了26个微型马达驱动的柔性皮肤,能够精确模拟人类语言表达中复杂的肌肉运动。

在实验初期,研究团队让机器人通过自我观察数千种随机表情,建立了马达运动与面部形态之间的关联关系。这一阶段被形象地称为机器人的”自我探索期”。

随后,机器人开始学习人类的语言表达方式。通过对大量YouTube上的人类说话和唱歌视频进行分析,它建立起了唇部动作与声音之间的统计学联系。这种名为”视觉-动作转换模型”的技术可以直接将音频信号转化为马达控制指令,无需复杂的语音编程支持。

目前的测试结果显示,该机器人已经能够实现多语言下的唇部同步运动,并且可以演唱其原创专辑《Hello World》中的歌曲。尽管还存在一些技术瓶颈,比如难以完美模拟爆破音和某些特定辅音,但整体进步显著。

这项技术的突破不仅在娱乐领域具有重要意义,在人机交互方面同样潜力巨大。将这种逼真的面部表情能力与当前先进的对话式AI(如ChatGPT、Gemini)结合,可以极大提升情感共鸣效果,使机器人更自然地理解和表达人类情绪。

研究团队认为,这种技术进步填补了人形机器人研究中的一个重要空白领域。传统的人形机器人研究主要集中在四肢运动和操作能力上,而忽视了面部表情这一关键要素。然而对于医疗、教育和养老等应用场景来说,自然的面部表情与灵活的动作同样重要。

随着人形机器人即将进入量产阶段(部分预测显示未来十年内产量将达数十亿台),面部动作的真实度将成为影响公众接受程度的关键因素。正如研究团队所言:”我们正站在跨越’恐怖谷效应’的临界点上,未来的人形机器人必将拥有更加自然生动的面部表情。”

尽管如此,研究负责人也清醒地认识到这项技术面临的伦理挑战。随着机器人越来越擅长模仿人类情感,人机之间的界限可能会变得模糊不清。因此,如何在技术创新与伦理风险之间找到平衡点,成为未来发展的重要课题。

该研究成果已在《科学 · 机器人学》期刊上发表。

© 版权声明

相关文章