阿里智能研究院发布的可控角色AI视频合成系统——MIMO

190 0 0

MIMO代表的是多输入多输出技术。

MIMO是阿里巴巴集团智能计算研究所开发的一种新型AI框架，专门用于实现可控的角色视频合成任务。借助空间分解建模技术，该系统能够把2D视频转化为3D空间代码格式，从而使得角色、动作及场景可以被精细地操控和调整。此框架不仅支持任意人物的视频合成工作，并且能生成创新性的3D运动效果，同时还能实现与现实世界环境的有效互动。MIMO通过将输入视频分解为关键人物部分、背景环境以及遮挡元素三类，分别转换成身份编码、动作编码及场景编码三种代码类型来控制整个合成流程。这不仅提升了最终合成视频的逼真程度，还极大地增强了用户对内容生成过程中的操控能力。

MIMO的核心作用

可操控的角色组合用户能够利用简化的输入来调整视频内人物的外貌。
运动操控利用MIMO技术，可以基于给定的姿势序列生成人物的各类动作，涵盖复杂的三维动态效果。
情境互动把人物自然而然地嵌入实际环境里，涵盖管理遮挡物及与物品的互动。
空间分割模型构建把视频拆分成多个空间元素，涵盖主角、背景环境及移动障碍物。
三维感知融合通过采用三维表示方法来增强合成视频的现实效果及深度观感。
便捷的用户操作管理用户能够灵活搭配各种潜藏代码以调控视频合成的各项细节。
任何角色的延展潜力MIMO具有生成任意人物形象的能力，并不仅仅局限于训练样本中出现的人物。

多输入多输出（MIMO）技术的基本概念

三维深度测算利用单目深度估计算法把二维视频画面转化为三维空间的展示。
空间剖析根据估算的三维深度数据，把视频拆分成三大空间元素：
- 关键角色视频里的重要主体。
- 基础情境视频中的背景区域。
- 漂浮覆盖视频里可能遮住主要对象的前方物品。
部件代码把前述的空间元素转换成各种不同的编码形式：
- 身份标识码：展示角色的外观特征。
- 锻炼编程：描述人物的行为与姿势。
- 情景编码：展示视频中的环境布景细节。
系统化的身体活动展示通过采用变换式人体模型（例如SMPL）来表现及编码个体的动态，能够实现对复杂三维动作更加精准的捕获。
标准的身份展示通过把角色调整至标准姿态（例如A姿），实现身份与行为的分离，确保身份的表现独立于其动作。
情境与障碍物编码利用共享的变分自动编码器（VAE）对场景及遮盖元素进行编码处理，随后将其重组成为完备的场景数据表示。

MIMO项目的网址

官方网站项目https://menyifang.github.io/works/MIMO/page.html
Git代码库：可在GitHub上找到名为menyifang/MIMO的项目页面。
关于arXiv的技术文章访问该链接以获取最新研究论文的PDF版本：https://arxiv.org/pdf/2409.16160，此文档包含了深入的研究内容。