香港理工、腾讯发布：UniPixel像素级多模态大模型来了！

169 0 0

什么是UniPixel

UniPixel是由香港理工大学与腾讯ARC实验室联合开发的一款创新性的多模态大模型。作为首个实现统一像素级视觉语言理解的大模型，它在图像和视频的深度理解和人机交互方面取得了显著突破。 UniPixel的核心能力在于其能够在一个统一的框架下完成目标识别、像素级分割以及区域推理三项关键任务。

通过引入创新性的”对象记忆机制”和独特的统一视觉编码方式，UniPixel实现了对视频中目标物体的精准追踪与语义理解。该模型基于先进的Qwen2.5-VL架构，支持点、框、掩码三种交互模式，并在九项视觉任务基准测试中超越了传统72B参数模型的表现。

UniPixel的重大突破在于将视觉分割技术与语言推理能力进行了深度整合，有效解决了传统模型在处理复杂指代关系和动态区域理解方面的局限性。这一技术创新为多模态交互应用提供了新的可能性。

文章版权归作者所有，未经允许请勿转载。

ainav

226 0

ainav

170 0

ainav

845 0

ainav

136 0

ainav

178 0

ainav

197 0