腾讯混元图生视频模型发布：开源+对口型+动作驱动

65 0 0

腾讯混元近期推出了创新性的图生视频生成技术，并正式对外开放源代码。该系统不仅支持通过上传单张图片生成动态短视频，还特别引入了对口型、动作驱动等趣味功能，同时还可自动生成背景音效并输出2K超高清视频。

基于领先的图像生成技术，用户仅需上传一张静态图片，并简单描述希望的画面动态和镜头调度方式，混元系统即可根据指示让这张静止的图片“活”起来，快速生成一段5秒的短视频。更有趣的是，结合对口型功能，用户上传人物图像后，输入相应的文字或音频内容，就能让图片中的人物开口“说话”或“唱歌”；而通过动作驱动功能，则可以一键生成与之匹配的舞蹈视频。

目前，普通用户可以通过访问混元AI视频官网（https://video.hunyuan.tencent.com/）体验这些创新功能。企业及开发者则可申请使用腾讯云提供的API接口进行深度集成和应用开发。

此次开源的图生视频模型延续了混元文生视频模型的技术优势，整体参数规模维持在130亿级别。该模型支持多种类型的角色与场景生成，涵盖写实风格视频制作、动漫角色塑造以及CGI虚拟角色创作等多个领域。

开源包涵了完整的权重文件、推理代码和LoRA训练代码，为开发者提供了极大的灵活性，使其能够基于混元模型训练出专属的LoRA微调版本。目前，这套系统已在GitHub、HuggingFace等主流开发者社区上线，方便全球技术爱好者下载体验。

根据最新发布的混元开源技术报告，该视频生成模型在设计上具有高度可扩展性。图生视频与文生视频技术实现了有机结合，在保证130亿参数规模的同时，确保了模型的高效运行和稳定性能。其核心技术优势体现在：既能直接从图像输入生成高质量视频，又支持结合文本指令优化生成效果。

附录：项目官方链接

官方网站：https://video.hunyuan.tencent.com/
GitHub仓库：https://github.com/Tencent/MagicVideo
技术文档下载：https://docs.magicvideo.ai/

# AI资讯