商汤发布并开源NEO原生多模态模型架构,实现视觉语言深层统一

AI资讯2个月前发布 ainav
47 0

12月2日,商汤科技携手南洋理工大学S-Lab实验室共同发布了全新多模态模型架构——NEO,并正式对外开源。这一突破性成果为后续的日日新SenseNova多模态模型奠定了新一代的技术基础。

商汤发布并开源NEO原生多模态模型架构,实现视觉语言深层统一

NEO被官方定位为“首个原生多模态视觉语言模型(Native VLM)”,其创新性地从底层架构实现了跨模态的深度融合。与传统的模块化设计不同,NEO完全摒弃了“视觉编码器+投影器+语言模型”的拼接式思路,通过一体化的核心架构实现了图像与文本的深度融合,从而在性能、效率和通用性方面实现了全面突破。

目前市场上主流的多模态模型普遍采用模块化设计:即先使用视觉编码器提取图像特征,再通过投影器将这些特征转换为适配语言模型的格式。这种基于大语言模型(LLM)的扩展方式虽然在理论上兼容了图像输入,但本质上仍然以处理文本为主导。图像与语言的融合仅停留在数据层面,导致模型在复杂多模态场景下的表现受到限制。

商汤发布并开源NEO原生多模态模型架构,实现视觉语言深层统一

针对这些问题,商汤科技推出了全新的NEO原生架构,通过三大核心创新实现了对视觉与语言的统一处理能力:

  • 原生图块嵌入(Native Patch Embedding):不同于传统的离散图像tokenizer,NEO采用了创新的Patch Embedding Layer (PEL),从像素到词元实现连续映射。这种设计能够更精细地捕捉图像细节,突破了现有模型在图像建模方面的瓶颈。

  • 原生三维旋转位置编码(Native-RoPE):NEO创造性地解耦了三维时空频率分配,视觉维度使用高频,文本维度使用低频。这种设计不仅能够捕获图像的空间结构信息,还为视频处理和跨帧建模等复杂场景提供了扩展可能。

  • 原生多头注意力机制(Native Multi-Head Attention):NEO在同一框架下实现了文本token的自回归注意力和视觉token的双向注意力。这种设计充分提升了模型对空间结构关联的利用率,显著增强了复杂图文混合理解与推理能力。

商汤发布并开源NEO原生多模态模型架构,实现视觉语言深层统一

值得一提的是,NEO采用了独特的双阶段融合训练策略(Pre-Buffer & Post-LLM),既能充分吸收基础语言模型的完整推理能力,又能从零构建视觉感知能力。这种设计成功解决了传统跨模态训练中常见的“语言能力损失”问题。

实验结果显示,NEO在多个维度实现了显著突破:

  • 数据效率:仅需行业同等性能模型1/10的数据量(3.9亿图像文本示例),NEO便能开发出“顶尖的视觉感知能力”。无需额外依赖复杂的视觉编码器,其原生架构在多项视觉理解任务中已追平甚至超越Qwen2-VL、InternVL3等顶级模块化模型。

  • 性能:在MMMU、MMB、MMStar、SEED-I、POPE等多项权威评测中,NEO均取得了优异成绩。

  • 推理性价比:特别是在0.6B-8B参数规模范围内,NEO在边缘计算部署方面展现出了显著优势。

商汤发布并开源NEO原生多模态模型架构,实现视觉语言深层统一

目前,商汤科技已正式开源基于NEO架构的2B和9B两种规格模型,相关资源可访问以下链接:

  • https://github.com/EvolvingLMMs-Lab/NEO

  • https://arxiv.org/abs/2510.14979

© 版权声明

相关文章