Meta发布Text-Driven AI视频创作及编辑应用——CinemaCraft

AI工具2年前 (2025)发布 ainav

349 0 0

Movie Gen是指什么

Movie Gen 是由 Meta 开发的一款AI视频创作软件，它能够依据文字提示生成并编辑视频，并为这些视频添加同步的音频内容。该技术涵盖了创建高清视频片段（最长可达16秒）、为已有的视频配上声音、对现有素材进行剪辑修改以及利用照片来制作个性化的短视频等功能。其核心在于一个参数量达到30B的模型，用于生成每秒16帧的画面；同时配备了一个音频合成模块，拥有13B的模型规模，能够生产最高45秒长的高品质音轨，包括环境声、效果声及乐器背景音乐等元素。这款工具目前仅对Meta内部员工和部分合作方开放使用，并计划在未来整合进公司的主要应用中以增加用户的互动体验。

Movie Gen的核心特性

制作影片当用户提供文字说明时，Movie Gen 将创作一段16秒的高清晰度影片。该影片会依据所提供的文字内容自动生成，并能匹配各种屏幕比例与像素精度。
定制化视频创作当用户上传图片后，Movie Gen 可以创建一段体现该人物特点的视频，并确保其角色身份与动作连贯一致。
精准视频剪辑Movie Gen 允许用户利用文字命令来精细调整影片内容，涵盖插入、移除或是更改视频内的组件，并且能够实施场景变换或样式更新。
声音创作Movie Gen 可以为视频创作出精准契合的高品质声音配乐，涵盖环境声效、动作音效及乐器伴奏。这些音频均会依据提供的文字说明定制，并完美配合画面内容。

电影生成技术的工作机制

框架设计Movie Gen 涵盖了两个核心的基本模型，分别是用于视频创作的 Movie Gen Video 以及专注于音频制作的 Movie Gen Audio。
预先训练该模型通过在海量的网络图片、影片及声音资料上预先训练，掌握了各种视听领域的概念知识。
流量配对（Traffic Pairing）通过运用流式匹配来培养目标生成模型，这是一种采用循环样本来不断优化和刷新数据的技术。
变异自动编码器（VAE）通过利用变分自编码器把视频与图片压缩进一个经学习得到的潜伏空间内，从而增强训练及推断过程的效率。
文本融入利用预先训练好的文本编码器把输入的文本转化为文本嵌入形式，并将其作为模型处理的初始条件。
多种形态的输入该模型能够应对多种类型的输入，如文本、图片及视频，并据此产生对应的输出。