英伟达推出Llama Nemotron Nano VL AI：高效精准解析文档

AI资讯1年前 (2025)发布 ainav

248 0 0

6月5日讯，科技媒体Marktechpost昨日发布博文称，英伟达推出了一款名为Llama Nemotron Nano VL的视觉-语言模型（VLM），专为高效、精准地处理文档级理解任务而设计。

该模型基于Llama 3.1架构打造，融合了CRadioV2-H视觉编码器与Llama 3.1 8B指令微调语言模型，能够同时处理多页文档中的视觉和文本元素。其支持最长16K的上下文长度，可覆盖图像和文本序列。

通过创新的投影层和旋转位置编码技术，Llama Nemotron Nano VL实现了视觉与文本内容的有效对齐，显著提升了token处理效率，尤其在长篇多模态任务中表现突出。无论是多图像输入还是复杂文本解析，该模型都能轻松应对。

在训练过程中，Llama Nemotron Nano VL采用了三阶段策略：第一阶段利用商业图像和视频数据集进行交错式图文预训练；第二阶段通过多模态指令微调优化交互提示能力；第三阶段则对纯文本指令数据重新混合处理，以提升其在标准语言模型基准上的表现。

模型训练采用了英伟达的Megatron-LLM框架和Energon数据加载器，并借助A100和H100 GPU集群完成。在OCRBench v2基准测试中，该模型在OCR、表格解析和图表推理等任务上展现了领先的精度水平，尤其在结构化数据提取（如表格和键值对）及文档理解方面表现优异。

值得一提的是，Llama Nemotron Nano VL不仅具备强大的性能，还具有出色的灵活性。其支持在多种设备环境中部署，既能满足边缘设备的轻量化需求，也能胜任服务器端的大规模任务处理。

此外，该模型还提供量化版本，进一步降低了计算资源需求，使其在边缘设备上的应用更加高效。结合NVIDIA提供的多种推理工具和优化方案，Llama Nemotron Nano VL为文档理解任务提供了强大而灵活的解决方案。

文章版权归作者所有，未经允许请勿转载。

ainav

131 0

ainav

324 0

ainav

227 0

ainav

181 0

ainav

2,949 0

ainav

235 0