小红书hi lab开源首个多模态大模型

AI工具1个月前发布 ainav
33 0

什么是dots.vlm1

dots.vlm1是由小红书hi lab团队发布的首个跨模态巨量模型。该模型采用创新架构,融合了视觉与语言的处理能力,展现出强大的多维度应用潜力。其核心组件包括一个专为视觉任务设计的12亿参数级编码器NaViT和DeepSeek V3大语言模型(LLM),通过这两部分的协同工作,实现了对图像内容的深度理解和文本信息的精准推导。

在技术实现上,dots.vlm1采用了独特的训练策略。其视觉编码器NaViT完全从零开始训练,原生支持动态分辨率处理,并在基础文本监督的基础上引入了纯视觉监督信号,显著提升了对图像内容的理解能力。此外,在数据准备阶段,研究团队创新性地运用多种合成数据技术,极大丰富了训练数据的多样性。

经过精心优化后,该模型在多个视觉理解和推理任务上达到了接近甚至超越行业领先水平的表现。特别是在处理复杂图表、表格、文档等视觉内容时,其准确率和响应速度均处于领先地位。同时,在文本相关任务中也展现出强大的竞争力。

dots.vlm1的核心功能

  • 卓越的视觉解析能力
  • dots.vlm1能够精准识别并理解图像中的各类元素,包括但不限于复杂图表、表格数据、图片描述等。其动态分辨率支持特性使其能适应不同尺寸和质量的输入内容,在多样化的视觉任务场景中均表现优异。

© 版权声明

相关文章