南洋理工开发的VR三维人物模拟人工智能系统——SOLAMI

AI工具3个月前发布 ainav
81 0

SOLAMI代表的是什么?

SOLAMI是一款由南洋理工大学的研究团队开发的创新VR环境下的3D角色扮演人工智能系统。它允许用户通过语音和身体动作与虚拟人物进行深度交互,依托于先进的社交视觉-语言-行为模型,提供了比传统文本及声音互动更为自然的沟通体验。该系统利用端到端的VLA模型来驱动操作,并能够理解用户的肢体信号并作出反馈,支持多样化的角色互动场景,包括舞蹈和游戏等。SOLAMI革新了AI在角色扮演游戏中的沉浸式体验方式。

SOLAMI

SOLAMI的核心特性

  • 深度交互体验用户能够通过语音交流及身体动作,在VR场景中与三维虚拟人物实现流畅交互。
  • 多种形态反馈该系统能够依据用户的声音与肢体语言输入来创造对应的角色声音及行为反应。
  • 人物多元性涵盖多样化的角色选择,如超级英雄、机器人及二次元人物等,带来丰富多彩的交互感受。
  • 交互式游戏可以和角色开展简易的互动游戏,例如猜拳。

SOLAMI的运作机制

  • 社会视听说行模型(SocVLP)利用完整的VLA模型来解析用户的声音与动作指令,并据此创建角色的反馈。
  • 多种形态的输入管理利用Motion Tokenizer与Speech Tokenizer技术,用户的声音及动作会被转化为模型能够识别的token形式。
  • 基于LLM的平台以大型语言模型(LLM)为基石,对输入的令牌进行处理,并依次生成代表角色声音与行动的令牌输出。
  • 行为展示用户的行为通过SMPL-X的三维旋转形式来描述,并采用VQ-VAE技术进行编码处理。
  • 声音处理通过运用RVQ-VAE架构对用户的声音数据进行编码,并借助SoundStorm技术完成解码过程,从而达到声音复制的效果。
  • 培训流程涵盖多重任务的预先培训及命令精调训练,使系统掌握动作、声音与文字间的联系,并能应对复杂且多元化的连续对话。

SOLAMI项目的所在位置

  • 官方网站项目的入口:solami-ai的GitHub页面
  • 关于技术的arXiv学术文章访问此链接可获取最新的研究论文:https://arxiv.org/pdf/2412.00174

SOLAMI的使用情境

  • 在线互动交流用户于虚拟空间中与人工智能角色开展社会交往,仿照真实世界的沟通及肢体语言互动。
  • 游戏交互体验在虚拟现实游戏中,以非玩家角色的身份更加自然地与用户交互,从而增强游戏的乐趣和沉浸感。
  • 教育与培养扮演教师或学生身份,开展语言学习和社交技巧培训等活动,营造各种教学环境。
  • 精神健康咨询通过在虚拟现实环境中扮演治疗专家的角色,辅助使用者开展心理健康疗愈及应对社交焦虑障碍的逐步适应训练。
  • 休闲与演出观众通过与虚拟艺人如歌手、舞者及演员的交互,获得深度沉浸的娱乐感受。
© 版权声明

相关文章