Mora – 由微软等公司开发的一款能够创建12秒短视频的多功能人工智能框架

134 0 0

Mora指的是什么

Mora是一款由微软和理海大学的研究人员开发的多智能体框架，专为通用视频创作设计。其主要目标是模仿并增强OpenAI Sora视频生产模型的能力。该框架的设计思想在于利用多个视觉智能体的合作来创造高质量的视频素材。通过将视频生成流程细分为若干子任务，并针对每个子任务配置专门的智能体，Mora实现了多样化的视频制作功能。

实验数据表明，在处理高分辨率（1024×576）及持续时间为12秒、共包含75帧的画面时，Mora展现了优异的表现力。然而，在复杂运动场景中，其性能明显不及Sora。另外，当尝试生成更长时间的视频内容时，质量会出现显著下滑。

Mora的核心特性

从文本转换为视频创作Mora能够依据用户的文字说明自动创建匹配的视频片段，无论是简朴的场景描绘还是错综复杂的剧情叙述，皆可胜任其视频制作之需。
从图片转换为视频制作除了可以直接将文本转换为视频，Mora还能利用用户上传的基础图片及文字说明来制作相应的视频片段，从而提升内容的多样性和精细度。
创建衍生视频除了能从零创建视频外，Mora还能对已有视频进行扩充与修改，加入新成分或是拉长影片时长。
从一个视频剪辑到另一个的编辑过程Mora拥有先进的编辑工具，可以依据用户给出的文本命令来修改视频内容，比如变换画面背景、改动物体特征或是增加新的视觉要素。
链接视讯Mora具备将若干视频片段平滑结合的能力，生成连贯的过渡视觉效果，非常适合用于编辑视频集合或是进行剪辑工作。
虚拟的数码宇宙Mora具备生成并模仿数字化世界的功能，它能依据文字说明制作出符合特定数字氛围的视频片段，比如游戏画面或是虚拟空间。

访问Mora的官方网页入口

代码与模型暂未完全公开，详情可访问：https://github.com/lichao-sun/Mora
关于此篇研究文章的链接如下所示：http://arxiv.org/abs/2403.13248，该文发布于arXiv平台。

Mora的操作机制

Mora利用一个多元智能化系统进行操作，此系统依赖于众多专业人工智能代理的合作以实现视频制作的目标。每一个代理都被指定去执行各自的专项任务，而所有这些专项任务集合起来就形成了整个视频创作的过程。

下面是关于Mora操作流程的具体说明：

工作细分Mora把繁复的视频制作流程拆解成若干个小任务，并为每一个小任务配备了一个特定的人工智能处理器。
定义智能体的角色Mora界定了如下五类基础型智能实体的角色：
- 建议挑选和创造智慧实体利用先进的语言处理模型（例如GPT-4或Llama）改进并挑选文本提示，以此增强所创建图像的关联度与品质。
- 智能文本转图像生成器把文字描述转化为高水准的起始画面。
- 从图片到图片的生成智能化系统依据文字指导调整原有的图片素材。
- 智能图像转视频系统把静止的图片转变为连续的动态视频片段。
- 智能体通过视频链接相连利用两个输入的视频素材生成流畅转换的效果视频。
作业程序Mora依据具体任务要求，自动规划并按一定次序调度智能体来完成各个分项任务。比如，在从文本转换为视频的任务中，可能会涉及如下流程：
- 起初，建议挑选并创造智慧实体管理文本指令。
- 随后，智能文本转图系统依据经过改进的文本指导创建最初的图片。
- 接着，智能图像转视频系统把原始图片转化为一系列的视频帧。
- 最终，如有必要，智能体与视频相连能够把几个视频片段合并为一段连续的视频。
多个代理协同工作各智能体依照既定的接口与协定相互沟通并协同工作，以保障视频制作流程的整体顺畅及统一性。
创建及评价当每一个智能体结束自己的分任务时，它会把成果传送给紧随其后的智能体，这一过程持续到整个视频制作链路完结。最终产生的视频能够依据事先设定的质量评判准则来进行评测。
更新与改进Mora架构支持利用迭代及优化手段提升视频制作的品质。该智能系统能够依据收到的反馈信息调节自身设置，从而增强产出视频的效果及其与文字说明之间的匹配度。