中国电信AI研究院开发的VideoGen AI视频创建大模型

262 0 0

TeleAI 视频创作大型模型指的是什么？

TeleAI 视频制作模型是中国电信AI研究院研发的一款创新工具，采用双阶段生成流程：首先依据文字说明设计镜头草图，然后以这些草图为基础合成视频内容。该系统能够维持视频中主要角色外观的连贯性，并精确操控其动作与形象变化，实现复杂场景和动态转换之间的平滑过渡，并符合物理规则及常识判断。通过VAST技术的应用，在包括主体一致性、遵循物理学原理等在内的多个方面显著提升了生成视频的质量表现，在VBench测试的人体姿态模拟和物体识别分类两个关键指标上均取得满分成绩，为AI短剧的创作提供了坚实的技术保障。

TeleAI 视频创作大型模型的核心特性

制作影片依据文字说明创建视频素材，确保主要元素的视觉风格统一。
分镜绘图把文字叙述转化为含有角色姿态和环境布局等重要细节的画面脚本。
精准调控在视频中精准调控主角的位置、姿态及外貌，以达成对复杂动态的高度仿真。
遵守物理学原理保证视频内的人物动作与物品移动遵循物理规则，防止出现失真现象。
多种情境下的持续性在多种情境下维持主要对象的一致性视觉效果，实现情境之间的平滑过渡。

TeleAI 视频创作高级模型的核心技术机制

广泛应用的VAST方案TeleAI的视频创作大模型运用了名为“VAST（从文字构建的故事版）”的两步式技术来生产视频。首先，根据文本描述精细地规划出包括构图设计、主要对象的位置以及人物姿态等核心要素的故事板，之后基于此故事板生成相应的视频片段。
外形统一和操作操控一致性借助于VAST技术，大型视频生成模型能够确保单个或多个人物主体在整个视频序列中保持一致的形象，并且可以精准操控复杂的动态及互动场景，使人物与对象的动作遵循自然物理法则。
涵盖全方位的大规模模型技能借助语义理解、语音处理、文本转图像和文本转视频等多种高级模型能力，TeleAI 视频生成大模型整合了短剧与影视制作的各个阶段，包括文字脚本创作、分镜头绘制、视频录制及编辑以及配音和音效合成等全过程，从而达到降低成本并提升效率的目的。
两步生成架构TeleAI采用了一种两步走的方法来制作其视频内容——首先构建场景脚本大纲，然后基于此大纲生产最终的视频片段。这种做法极大地增强了在短剧创作中的可控程度和精准度。初期阶段专注于将文本叙述转化为具体的镜头序列；随后，在第二阶段中，系统利用这些镜头设计生成相应的视觉内容，并确保所有的动作细节都既符合现实世界的物理法则又具备极高的观赏价值，特别是在处理激烈的打斗场面时尤为突出。