腾讯混元图生视频模型发布:开源+对口型+动作驱动

AI资讯1周前发布 ainav
14 0

腾讯混元近期推出了创新性的图生视频生成技术,并正式对外开放源代码。该系统不仅支持通过上传单张图片生成动态短视频,还特别引入了对口型、动作驱动等趣味功能,同时还可自动生成背景音效并输出2K超高清视频。

腾讯混元发布图生视频模型并对外开源,同时上线对口型与动作驱动等玩法

基于领先的图像生成技术,用户仅需上传一张静态图片,并简单描述希望的画面动态和镜头调度方式,混元系统即可根据指示让这张静止的图片“活”起来,快速生成一段5秒的短视频。更有趣的是,结合对口型功能,用户上传人物图像后,输入相应的文字或音频内容,就能让图片中的人物开口“说话”或“唱歌”;而通过动作驱动功能,则可以一键生成与之匹配的舞蹈视频。

目前,普通用户可以通过访问混元AI视频官网(https://video.hunyuan.tencent.com/)体验这些创新功能。企业及开发者则可申请使用腾讯云提供的API接口进行深度集成和应用开发。

此次开源的图生视频模型延续了混元文生视频模型的技术优势,整体参数规模维持在130亿级别。该模型支持多种类型的角色与场景生成,涵盖写实风格视频制作、动漫角色塑造以及CGI虚拟角色创作等多个领域。

开源包涵了完整的权重文件、推理代码和LoRA训练代码,为开发者提供了极大的灵活性,使其能够基于混元模型训练出专属的LoRA微调版本。目前,这套系统已在GitHub、HuggingFace等主流开发者社区上线,方便全球技术爱好者下载体验。

根据最新发布的混元开源技术报告,该视频生成模型在设计上具有高度可扩展性。图生视频与文生视频技术实现了有机结合,在保证130亿参数规模的同时,确保了模型的高效运行和稳定性能。其核心技术优势体现在:既能直接从图像输入生成高质量视频,又支持结合文本指令优化生成效果。

附录:项目官方链接

官方网站:https://video.hunyuan.tencent.com/
GitHub仓库:https://github.com/Tencent/MagicVideo
技术文档下载:https://docs.magicvideo.ai/

© 版权声明

相关文章