VITRON & Skywork AI 携手新加坡国立大学与南洋理工大学打造的像素级视觉巨量语言模型

AI工具1年前 (2025)发布 ainav

539 0 0

VITRON代表的是什么？

VITRON是由Skywork AI、新加坡国立大学及南洋理工大学共同开发的一款像素级视觉大型语言模型（LLM），专为静态图像与动态视频的全面理解和处理而设计，能够执行理解、生成、分割和编辑等操作。该系统融合了前端的视觉编码技术与后端的专业视觉处理模块，涵盖了从解读到创造的各种任务需求。VITRON采用了混合的信息传递机制，通过离散文本指令及连续信号嵌入相结合的方式实现精准的功能调用，并特别设计了跨任务协作组件以提升不同视觉作业间的协同效率。

VITRON的核心作用

视感解析涵盖基于图像与视频的问答任务、指向性描述及视觉逻辑分析。
图像创造包括由文字转化为图片（Text-to-Image）以及由文字转为视频内容（Text-to-Video）。
视像划分涵盖如实例分割与全景分割之类的图像及视频划分工作。
视频剪辑执行图片与视频的修改任务，包括插入元素、替換内容、删除部分以及调整色彩等功能。
用户互动输入响应用户的各种互动操作，如点击事件、绘制矩形或复杂多边形以及自由绘画等。

VITRON的核心技术机制

编码模块-大型语言模型-解码单元结构采用普遍的编码器-大规模语言模型（LM）-解码器结构，在此框架中，编码器专注于解析图像与视频信息，大型语言模型承担起理解意义及做出判断的任务，而解码器则致力于完成特定的视觉作业。
前端视效与文字编译采用CLIP ViT-L/14@336px模型对图像及视频内容进行编码，并通过每帧的平均池化操作来生成整个视频的时间特征表示。同时，运用区域像素感知视觉提取技术作为草图的编码方案，专门处理用户的互动输入信息。
关键的大语言模型采用Vicuna（7B, 第1.5版）这一大型语言模型来解析并理解来自语言与视觉两个方面的信息输入，并据此进行逻辑推断以形成决策建议。
后台视效大师结合多种专门的视觉工具，例如使用GLIGEN进行图片创作与修改，借助SEEM实现图象及影片分区功能，零视角（ZeroScope）和I2VGen-XL则负责文本转视频以及图像转视频的任务处理，而StableVideo专注于视频编辑工作。
结合多种技术的指导信息传输开发了一种创新性的融合技术，利用离散的文字命令与持续变化的信号特性编码相结合的方式，保证大型语言模型的判断能够准确无误地传达至后续处理单元。

VITRON项目的所在位置

官方网站：在Vitron-LLM的官方在线平台可以看到相关信息。
Git代码库：可在SkyworkAI的GitHub库中找到Vitron项目，链接如下所示 https://github.com/SkyworkAI/Vitron
关于arXiv的技术文章访问此链接以查看最新研究成果的PDF文件：https://arxiv.org/pdf/2412.19806，在这里您可以获取详细的学术资料。