谷歌Gemini 2.5 Pro：首个掌握PDF布局解析与精准引用的AI模型

AI资讯1年前 (2025)发布 ainav

222 0 0

4月22日讯息显示，最新研究表明，谷歌的Gemini 2.5 Pro模型在解析PDF文档的视觉结构方面实现了重大突破，成为首个能够全面理解PDF布局的人工智能模型。

值得注意的是，这款备受关注的AI模型于3月25日首先面向付费用户和开发者推出了实验版本。仅仅四天之后，谷歌便通过免费Web应用程序向全球用户开放了这一尖端技术。

Gemini 2.5 Pro不仅能够提取PDF文档中的文本内容，更能深入理解其视觉布局特征。这包括对复杂图表、表格以及整体排版结构的精准识别与处理能力。

据谷歌官方开发者文档介绍，该模型具备独特的”原生视觉”(Native Vision)能力，可处理多达3000个PDF文件（每个文件限制为1000页或50MB），并支持高达100万个token的超大上下文窗口。未来计划将这一数值扩展至200万token。

AI初创公司Matrisk的联合创始人Sergey Filimonov特别强调了Gemini 2.5 Pro在PDF视觉引用方面的突出表现。

Filimonov指出，传统的文本分割方法往往割裂了用户与原文之间的视觉联系，导致无法直观验证信息来源。即使是ChatGPT，在处理引用时也只能下载完整的PDF文件供用户自行判断模型是否出现”幻觉”，这严重影响了用户体验和信任度。

以往在处理文档引用时，通常只能高亮大段无关文本，精准度极低。而Gemini 2.5实现了革命性突破：它不仅可以将提取的文本片段准确定位到原始PDF的准确位置，还能以空前的精度识别并标注特定句子、表格单元甚至图像。

这种创新技术为用户带来了直观的视觉反馈。例如，在处理财务报告时，Gemini 2.5可以精确标记关键数据点及其在文档中的具体位置（如图1所示）。

Gemini 2.5的实用价值远不止于文本定位。它还能从PDF文档中提取结构化数据，并明确标注每个数据项的来源位置，这在解决后续决策中的信任问题方面具有重要意义。

文章版权归作者所有，未经允许请勿转载。

ainav

222 0

ainav

181 0

ainav

231 0

ainav

203 0

ainav

178 0

ainav

246 0