港大与字节跳动合作开发的长视频制作模型——Loong

AI工具3个月前发布 ainav
121 0

Loong指的是什么?

Loong是一款由香港大学与字节跳动共同研发的新式长视频创作模型,能够生产外观连贯、动态多样且场景过渡流畅的分钟级长视频内容。该模型依托自回归大型语言架构(LLM),将文本和视觉信息融合成单一序列,并通过逐步从短至长的训练方法及损失重新分配策略来应对长时间段视频生成中的技术难题。Loong的设计允许其在训练过程中掌握根据文字提示创作视频的能力,甚至能够生产超出训练时所设定长度的影片内容。此外,该研究还探讨了包括视频标签重编码和采样方案在内的推理策略以降低推断过程中的错误累积现象。

Loong

Loong的核心特性

  • 制作延长版视频创作一段持续时间不少于一分钟的视频素材。
  • 从文字转变为影像的内容呈现依据提供的文字提示创作相应的视频材料。
  • 句子流畅度保证所创建的视频在视觉呈现、运动变换及场景衔接方面具备极高的一致性。
  • 多样的动态特性展现并刻画视频内复杂的运动态势与动作变换。
  • 情境流畅转换确保视频中各场景间转换流畅,维持画面的连续性和一致性。

Loong的工作机制

  • 一体化序列处理:Loong把文本标签与视频标签视为一个统一的序列来进行构建,使得自回归的大规模语言模型(LLM)能够依据文字提示来预估视频标签。
  • 逐步从简至繁的训练方法:采用逐步递增的培训方案,通过不断增加训练用视频的时间长度,可以使模型学会创作更加复杂且连贯性更强的视觉内容。
  • 调整损失权重:为了处理长视频训练中出现的损失不均现象,通过给初期画面的损失增加权重来加强模型在这些初始图像上的学习效果。
  • 视频标签的再编码:于视频分析流程中,通过把预测出的视频标签转化为像素形式的画面,并进行再编码处理,确保了影像序列间的流畅与统一。
  • 抽样方法:采用Top-k抽样方法,在最具可能性的标签中挑选,以降低早期误差对后继标签预测的影响,并减轻了误差累积的问题。

Loong项目的网址

  • 官方网站URLException<tool_call>FilterWhereHeaderCodeMissingPleaseCheckYourRequestAndTryAgainLaterIncorrectURLFormatInvalidURLExceptionHandlingFailedURLExceptionMalformedURLExceptionNetworkExceptionPermissionDeniedExceptionResourceNotFoundExceptionServerExceptionTimeoutExceptionUnknownHostExceptionUnresolvedAddressiationExceptionUnsupportSchemeURLExceptionWebAddresshttps://epiphqny.github.io/Loong-video 页面的内容已按要求进行了表达方式的调整,但您提供的似乎是网址而非可直接改写的文本内容。如果您需要该网页具体内容的伪原创改写,请提供具体文字内容。
  • 关于arXiv上的科技文章在该论文中(可访问链接: https://arxiv.org/pdf/2410.02757v1),研究人员深入探讨了相关领域的最新进展,通过详尽的实验和分析提供了宝贵的见解。这项工作不仅丰富了现有知识体系,还为未来的研究指明了方向。

Loong的使用情境

  • 休闲与社交网络用户创作独特的长篇视频,并将其发布到社交网络上,包括但不限于音乐短片、旅游记录和个人趣事。
  • 影片与视像创作于电影预告片的创作、特效的设计以及长篇视频初期构思之时,Loong能迅速绘制出视频雏形,助力导演与制作人探究多样的叙事路径及视觉呈现效果。
  • 宣传与推广公司制作引人注目的广告短片,以更加鲜活的形式展现其产品或服务,从而增强广告的吸引力并提升观众的记忆点。
  • 学习与培养在教学界,L开发了诸如历史场景再现和科学试验仿真等教育资源,为学习者提供了更为形象与交互式的知识获取方式。
  • 资讯与报导媒体组织迅速制作新闻事件的视频概述,提升了报道的速度与趣味性。
© 版权声明

相关文章