大规模动态模型 —— 商汤科技与南洋理工大学共同开发的综合性多模态运动生成系统

AI工具3个月前发布 ainav
84 0

大型运动模型是指什么

Large Motion Model(LMM)是由新加坡南洋理工大学S-Lab与商汤科技联合开发的一种综合性多模态运动生成框架。该模型能够应对从文本到动作、音乐到舞蹈等多种生成任务,并在多项评估测试中表现出可比肩专家系统的性能水平。通过整合多种格式和类型的运动数据,创建了全面的MotionVerse数据库,LMM利用创新性的ArtAttention机制及预训练方法来精确控制身体各部位的动作并实现广泛的知识迁移能力。特别是在处理未见过的任务时,其展现出卓越的泛化能力,并为大型运动生成模型未来的研发提供了新的思路。

Large Motion Model

大动作模型的核心功能

  • 生成多种任务运行能够处理各种生成性操作任务,包括但不限于从文本生成动作、将音乐转换为舞步以及由动作衍生出新的动态表现形式。
  • 集成数据集合构建MotionVerse数据集合,通过融合多种模式、格式及任务的数据源来达成一致化的动作表现形式。
  • 精准调控运用ArtAttention技术,实现对各肢体部分的精准操控,从而增强动作生成的细腻程度。
  • 广泛适用性展示出卓越的泛化性能,在各种未曾接触的任务中实现高效的运用与生成。
  • 多种类型数据的整合处理能够同步解析包括文字、音频和影像在内的多类型数据输入,并据此产生对应的动态反应。

大型运动模型的工作机制

  • 整合的数据集合(ActionWorld)利用一致化的数据集合MotionVerse,该集合涵盖了各类任务与模式下的动作信息,并通过采用TOMATO表达方式来标准化各种形式的动作资料。
  • 基于扩散机制的Transformer核心架构利用Transformer结构的扩散模型,通过去噪扩散概率方法(DDPM),实现高精度的动作序列创建。
  • 注意力艺术机制提出了一种创新性的注意力机制——BodyPartAwareAttention,该机制通过融合人体各部分的感知来实现,在这种设置下,模型能够针对不同的身体区域实施单独的学习与操控。
  • 预先设定的训练方案通过运用变化帧率与多元掩蔽技巧的预先培训方案,提升了模型处理多样数据源的能力及其广泛应用性。
  • 无例样学习利用零样本技术创造长时间的动态动作序列,使模型能够在缺乏附加示例的前提下产生动作。

大型运动模型的项目位置

  • 官方网站建设项目访问网址以查看项目详情:https://mingyuan-zhang.github.io/projects/LMM
  • Git存储库:可在GitHub上找到mingyuan-zhang创建的LMM项目页面。
  • 关于arXiv上的科技学术文章访问该链接可以获得一篇学术论文的PDF版本:https://arxiv.org/pdf/2404.01284,其中包含了深入的研究内容。
  • 网上试用演示版本:访问该链接可查看名为LMM的项目页面,该项目托管在Hugging Face平台上用户mingyuan的空间中。

大型运动模型的使用情境

  • 动漫与电子游戏创作创建高度真实的角色动画,以降低手工绘制动画所需的时长与开支,并增强整体的动画生产效能。
  • 虚拟实境(VR)与扩增实境(AR)于VR及AR应用程序里,通过创建同用户的肢体活动相协调的虚拟人物行动来增强沉浸体验。
  • 影视与录像创作在影片中创造独特的视觉特效,例如仿真复杂的战斗场面或者舞动姿势,以提升生产效能。
  • 体育活动解析与锻炼指导对运动员的动作用以解析,并提出训练指导方案,或是创建规范的动作示范模型。
  • 机器人学指导机器人掌握复杂的仿人操作,增强其在服务业、医疗卫生及制造业中的应用效能。
© 版权声明

相关文章