Genmo发布的开源高质AI视频创造工具——Mochi 1

224 0 0

Mochi 1指的是什么

Genmo公司最新发布了开源AI视频生成工具Mochi 1，在动作表现及遵守用户指示方面有着出色的效果。该模型遵循Apache 2.0许可协议，允许个人和商业项目中自由使用而无需付费。当前版本支持480p分辨率，并预计在年内推出高清版的Mochi 1 HD，提供720p的更高清晰度与更加流畅的动作效果。用户可以在Hugging Face平台上访问该模型的具体架构及权重信息；同时，Genmo还搭建了一个在线体验平台供人们免费尝试Mochi 1的各项功能。

Mochi 1的核心特性

高质量的动作创建Mochi 1 在创建动态内容上展现了卓越的能力提升，能够制作出平滑的影片，并准确模仿包括流体运动、毛发处理及逼真人体动作在内的物理现象，逐步克服了令人感到不适的拟人化障碍。
卓越的指令遵守能力Mochi 1 可以极其精准地根据用户的指示创作出令人满意的视频片段。它结合了文字与图像标签来制作视频，其结构方式近似于 Stable Diffusion 3 的设计，并且采用了一种流式构造模式，拥有更大的隐藏维度，参数量几乎是单纯文本流程的四倍之多。
开放源代码结构Mochi 1 的模型权重与原始代码在 Apache 2.0 开源许可下公开，允许用户自由地获取并应用，适用于个人及商业目的。
高效能Mochi 1 采用了由 Genmo 独创的非对称扩散变换器（Asymmetric Diffusion Transformer, 缩写为 AsymmDiT）结构，该结构通过对文本进行简化处理并集中精力于视觉表现，从而高效地解析用户指令和压缩视频令牌。
代管儿童乐园Genmo 创建了一个全新的托管测试平台，让用户能够免费探索 Mochi 1 的特性，并亲身体验视频制作的流程。
大规模参数Mochi 1 配备了一个拥有 100 亿参数的扩散模型，以提升训练过程中模型精度的关键数值量。

Mochi 1的工作机制

不对称传输变换器（AsymTransFormer）结构Mochi 1 搭载了由 Genmo 独立开发的非对称扩散转换器框架，该框架简化了文字处理流程以突出视觉表现，并高效地解析用户指令及视频令牌压缩。AsymmDiT 利用文本与图像标记共同生成视频内容，这一过程类似 Stable Diffusion 3 的操作模式。然而，它的流线型架构拥有更宽的隐藏层维度，其参数量几乎是纯文字流模型的四倍，并通过非对称布局设计来减少部署时所需的内存占用。
即时视频创建技术Mochi 1 利用 Pyramid Attention Broadcast（PAB）技术，在降低冗余注意力计算的基础上，达到了每秒 21.6 帧的帧率，并实现了 10.6 倍的速度提升，且不损害视频生成的质量。这项技术有望加速所有基于 DiT 的未来视频生成模型，赋予它们实时生成的能力。

Mochi 1 的工程链接

官方网站项目的入口：ai.genmo/日志
HuggingFace的模型集合访问此链接以查看 genmo 创建的 mochi-1 预览模型：https://huggingface.co/genmo/mochi-1-preview
网上试用：访问此链接以探索创新的人工智能体验 – https://www.genmo.ai/explore

Mochi 1的使用场合

制作视频素材Mochi 1 拥有生成高品质视频作品的能力，涵盖动画制作、视觉效果及短视频等领域，它作为一款强大的创意软件，极大地助力了视频创作者与艺术工作者的表达。
教育培训在教育行业中，Mochi 1 能够创建教学视频，用以阐释复杂的思想或是重现实验流程，从而增强学习成效。
休闲与玩乐在游戏与娱乐领域中，Mochi 1 能够创建游戏角色中的活动背景影片及叙事内容，从而提升用户的参与体验和沉浸感受。
宣传与推广利用 Mochi 1，企业能够制作出引人注目的广告视频，从而在减少开支的同时提升广告内容的吸引力。
社交平台在社交网络中，Mochi 1 能够辅助内容制作者创造个性化的视频素材，从而提升关注度并增强用户互动。
消息与文章于新闻领域之中，Mochi 1 能够制作出用以丰富新闻播报背景画面或是重现事件场景动画的内容，从而增强信息传达的视觉冲击力与吸引度。