展示-o —— 来自新加坡国立大学Show Lab与字节跳动合作开发的多功能理解和生成一体化模型

AI工具3个月前发布 ainav
130 0

展示-o指的是什么

Unified Transformer架构下的Show-o融合了多模态的理解与生成能力。该模型利用自回归技术和离散扩散建模方法的结合,在处理视觉问答、基于文本的图像创造、图文混合生成以及受文本指导的图片修补与拓展等广泛的视-语任务中表现出色。在多模态理解和创作的标准测试中,Show-o的表现与其同类专门设计的模型相比毫不逊色甚至更胜一筹,并且能够通过减少采样步骤来提升效率。此外,该模型适用于多种应用场景,例如基于文本引导的图像修补和扩展工作无需进行额外微调即可直接应用。

展示-o的核心特性

  • 关于图像的问答任务(Image-based Question Answering, IQA)能够解析图片中的信息,并对关于该图片的疑问作出回应。
  • 从文本转换为图片生成依据文字说明创建对应的图片,能够促进创新并实现多样的视觉效果。
  • 基于文本指示的图像修补技术能够辨认并修复图片中缺损的部分,依据文字提示完成恢复工作。
  • 基于文字提示的图像外推在图片里加入新的成分或是拓展图片的内容范围,根据文字说明来进行扩充。
  • 多模态创作通过融合文字说明来创建视频的关键画面,这项技术开启了制作长时间视频的新途径。
  • 跨媒体分析与创造结合视觉与语言数据,执行复杂多样的跨模式作业。

展示技术的工作机制

  • 结合自回归与离散扩散模型的方法Show-o模型巧妙融合了自回归与离散扩散建模技术,灵活应对多样化的单一及复合模式数据输入与输出需求。
  • 依托预先训练的大规模语言模型(LLM)Show-o的设计采用了预先训练好的大型语言模型,并在每一层注意力机制之前加入了QK-归一化处理,以此来增强模型的表现和稳定性。
  • 分散图像标注Show-o利用离散去噪扩散技术来仿真离散图像标签,从而减少了对附加文本编码器的依赖。
  • 一致的指引方案Show-o开发了一种通用的提示方法,通过将图片与文字转化为标记格式并组合成输入序列,来兼容多种任务需求,包括但不限于多模态信息处理及基于文本创建图像等功能。
  • 完全关注机制Show-o采用了灵活的注意力机制,能够依据输入数据的不同类别自动切换到适当的模式——对于文本元素采用因果关注方式处理,而对于图像元素则采取全面的关注策略。这种方式确保了每一个图像标识都能与其他所有的标识在序列中进行有效的互动与信息交换。
  • 培训目的Show-o运用了两个学习目标:未来标记预报(NTP)与覆盖标记预报(MTP),它结合了自回归方法及(离散)扩散模型的训练方式。
  • 多元模式创造Show-o展示了在结合多种模式内容创作方面的潜能,比如通过文字说明与视频的关键画面来创造新内容,这为延长版视频的内容制作开辟了新颖的道路。
  • 降低采样环节的数量相较于自回归图像生成技术,Show-o将采样步骤缩减了大约20倍,这不仅降低了对计算资源的需求,还增强了模型应用的灵活性。

展示-o的工程链接

  • GitHub代码库: 在 GitHub 上可以找到 ShowLab 团队的项目展示页面,网址为 https://github.com/showlab/Show-o
  • 关于arXiv上的科技文章这篇论文可以在如下链接中找到:https://arxiv.org/pdf/2408.12528,提供了对该主题的深入探讨。
  • 网上试用演示版本访问此链接以查看不同的项目展示:https://huggingface.co/spaces/showlab/Show-o 页面展示了多样化的创意作品。

展示-o的使用情境

  • 社交平台上的内容制作用户提供文字说明后,Show-o能够创建对应的图片或视频,从而增加社交媒体发布内容的多样性。
  • 智能助理于模拟场景中,依据用户提出的询问或是指示,Show-o能够创建具有说明性的图象与动画来增强视觉理解。
  • 教育培训:利用Show-o可以创建教学资料里的图形、插图与实例图片,从而提升学习的趣味性和效果。
  • 宣传与推广依据产品的说明或是市场营销的理念,Show-o能够迅速创造出引人注目的视觉素材,适用于广告推广。
  • 制作电子游戏Show-o能够创造视频游戏中独树一帜的游戏场景、人物及物件图象。
  • 影片与视像创作Show-o在项目初期提供支持,依据剧本创作概念艺术与场景布局图纸。
© 版权声明

相关文章