成分 – 基于多身份图像与视频扩展融合的多身份图片定制视频制作框架

AI工具2年前 (2025)发布 ainav

557 0 0

成分指的是什么

Ingredients是一款强大的框架，它通过整合多种特定人物的照片与视频扩散Transformer来支持定制化的视频创作。该框架依托三个核心组件实现深度个性化的视频制作：面部提取模块、多尺度投影器以及ID路由器。面部提取模块从整体和细节两个层面捕捉每位个体的面部特征；多尺度投影器则将这些特征融入到视频扩散模型之中；而ID路由器负责动态调配并整合多个身份特质至相应的时间空间位置。通过采用一套精心规划的分阶段训练方案，Ingredients能够在没有提示限制的情况下生成高度保真且内容灵活定制化的个性化视频。

主要作用在于Ingredients部分

维持角色的一致性确保生成的视频中的多个参照图片里的人物身份统一。
便捷的内容管理允许用户通过文字指令精准调控视频材料。
高品质影像创作创作出高质量且流畅自然的视频素材。
不必经过培训的个性化设置不需要为每一个新的角色进行模型的训练或者调整，即可达成个性化视频制作。

Ingredients的工作机制

脸部抽取工具承担着从提供的参照图片里捕捉每个人物的脸部特点的任务。采用融合全面观察与细致分析的方式，在宏观上捕获脸部的整体轮廓，并在微观层面上锁定细微特质，以此保证所创建视频内角色面容的真实感和多样性。
多种尺寸映射器把抽取出来的脸部特性编码转换至适用于视频扩展转换器的画面查询情境中。通过综合利用多种层次的特性整合技术和交错注意机制，确保人脸特质能够同视频扩散架构内的图像元素实现高效互动，从而在整个创作流程里精准再现个体的身份细节。
网络识别码路由器承担在视频制作过程中，在特定时空范围内灵活配置与整合多种个性特质的任务。利用具备位置识别功能的路由系统，为潜在的脸部区域指定独一无二的身份属性标记，防止个性特征交叉或混乱，并保障最终生成视频中各个人物身份标识清晰且保持一致。

配料项目的仓库位置

Git存储库：访问该仓库以查看配料相关信息 – https://github.com/feizc/ZhongLiao
HuggingFace的模型集合：访问此链接以查看由feizhengcong创建的成分集合 – https://huggingface.co/feizhengcong/Ingredients
arXiv科技文章在学术论文数据库中可以找到编号为2501.01790的文件，具体链接如下：https://arxiv.org/pdf/2501.01790。

Ingredients的使用情境

创意文娱作品创作一个包含多个场景的音乐视频给虚拟偶像，确保该偶像的表情特色与艺术风格统一，并提升观众参与感。
营销领域针对时尚品牌的多样需求创作各类广告，展现目标人群在校园或街头等地的不同潮流装扮，以此增强品牌的魅力和吸引力。
教育与教学活动在语言培训软件里，制作模拟全球峰会的视频片段，让用户通过观察各国代表之间的互动来提升商务英语水平及跨文化交流能力。
社交平台家庭成员录制了一段反映其族谱历程的影片，巧妙地融合了旧照与个人叙述的故事片段，生动再现了不同时期家人生活的画面，并将这段视频上传至社交平台后赢得了广泛的情感共振。
仿真现实于虚拟现实旅行应用程序内，创建一段展现用户同虚拟导览员共同探索名胜古迹的影片片段，其中导览员详尽解说每个地点的历史背景及文化底蕴，从而大幅提升用户的沉浸式感受。

# AI工具