梦想视界-2 – 由复旦大学与阿里巴巴及其他多家机构共同研发的无需样本视频定制生成系统

AI工具3个月前发布 ainav
74 0

DreamVideo-2指的是什么

DreamVideo-2是一款由复旦大学及阿里巴巴集团等联合开发的创新性无须训练样例即可生成特定内容的视频框架。该系统能够依据单一图片与一系列界定框来创建具有明确主题并精确控制运动路径的视频,无需进行额外调整以适应测试需求。通过采用参照注意力机制学习目标外观,并利用从界定框中提取出的二进制掩码来操控动作轨迹,DreamVideo-2实现了对运动细节的高度把控能力。此外,它还融合了混合遮罩参考注意力技术和重新加权扩散损失函数,从而提升了主题特征的表现力和整体控制效果之间的平衡性。研究团队使用WebVid-10M数据集以及内部资源来支撑无须训练样例的视频定制任务。DreamVideo-2在目标设定与动作掌控方面均超越了现有的先进技术,彰显出其在视频生成领域的显著优势及实用性潜力。

DreamVideo-2

DreamVideo-2的核心特性

  • 个性化无样本配置不必在测试阶段调整设置,它能够依据用户给出的单张图片及标注的边界框序列,直接创建出含有明确主题并具备精准动作路径的视频内容。
  • 专题研究利用参考注意力机制,该模型能够凭借自身能力学习并创造具有特定主题特色的视觉效果。
  • 精准动作调控通过利用由边界框生成的二值蒙版来操控视频内主体的动作路径,达到精准的动作调控效果。
  • 结合掩码参照的注意力机制利用融合式潜在遮罩模型优化目标区域的主题特征,以提高主题识别的精确度。
  • 重新调整的扩散损耗明确界外与界内区域的作用差异,以保障主题学习及运动调控间的均衡状态。

DreamVideo-2的核心技术机制

  • 参照注意机制请提供需要伪原创改写的具体内容,以便我进行相应的处理。
    • 利用视频扩散模型在多个层次上抽取特性信息的能力,把用户提交的单一议题图片视作一帧加入到视频中并输入至该模型内,以获得对议题的关注点特性。
    • 通过利用残差交叉注意力机制,把主题特性融入视频特性当中,以此来提升模型对于特定话题的识别与学习效率。
  • 由遮罩指导的动作组件请提供需要改写的具体内容,以便我进行相应的处理。
    • 把用户设定的边界框系列转化为二进制遮罩系列,用于标示视频里主体的动作路径。
    • 创建了一个集成时空编码器与空间ControlNet的遮罩导向动作组件,该组件能从遮罩序列里抽取动作数据以达成精准操控。
  • 结合掩码参照的注意机制通过在参照注意力机制里采用混合潜在遮罩建模,并调节遮罩内背景成分的比重,以加强焦点区域的主题表达。
  • 重新加权的扩散损耗开发了一种创新的损失函数,通过调节边界内与外区域对总损失的影响程度来均衡主体识别与动作调控之间的关系。
  • 培训与推断请提供需要改写的具体内容,以便我进行相应的处理。
    • 于训练期间,锁定初始3D UNet模型的参数不变,并专门对新增元素进行调优培训,这些元素包括了融合遮罩参照注意机制与遮罩导向的动作单元。
    • 于推理过程中,用户只需提供主题图片及边界框系列,则可制作出个性化视频,并且这一过程不需要进行任何额外的微调或是对关注地图做改动。
  • 建立数据集合创建了一个专注于单一主题的全新视频数据集合,该集合内含视频遮罩与边界的标注信息,并通过运用Grounding DINO、SAM及DEVA模型来完成自动化的标记工作,以此促进无需训练样本的个性化视频项目开发。

DreamVideo-2的项目页面链接

  • 官方网站项目访问网站 dreamvideo2.github.io 获取更多信息。
  • arXiv科技文章在该链接中展示的研究论文可于电子预印本仓库ArXiv上找到,其具体路径为2410.13830。

DreamVideo-2的使用情境

  • 休闲与社交网络:依据用户的个性化偏好,迅速创建含有指定角色或物件的视频片段,适用于社交平台发布或是自我消遣。
  • 影视作品创作与发展影视创作者利用DreamVideo-2来查看特效及场景设计,或是创建指定的动态片段,从而降低实景拍摄所需的费用与耗时。
  • 市场推广与宣传策略通过打造个性化的视频内容,公司能够制作出更加引人注目的商业广告,并以具体的产品或是品牌形象为核心,从而增强广告的专属感与用户参与度。
  • 教育培训教育组织利用DreamVideo-2创建教学影片,再现具体的实验流程或历史场景,提升学习感受。
  • 新闻和消息报道新闻媒体迅速创建用于报道事件的图像素材,特别是针对那些无法实地摄取的情境。
© 版权声明

相关文章