谷歌Gemini 2.5 Pro:首个掌握PDF布局解析与精准引用的AI模型

AI资讯6小时前发布 ainav
2 0

4月22日讯息显示,最新研究表明,谷歌的Gemini 2.5 Pro模型在解析PDF文档的视觉结构方面实现了重大突破,成为首个能够全面理解PDF布局的人工智能模型。

值得注意的是,这款备受关注的AI模型于3月25日首先面向付费用户和开发者推出了实验版本。仅仅四天之后,谷歌便通过免费Web应用程序向全球用户开放了这一尖端技术。

Gemini 2.5 Pro不仅能够提取PDF文档中的文本内容,更能深入理解其视觉布局特征。这包括对复杂图表、表格以及整体排版结构的精准识别与处理能力。

据谷歌官方开发者文档介绍,该模型具备独特的”原生视觉”(Native Vision)能力,可处理多达3000个PDF文件(每个文件限制为1000页或50MB),并支持高达100万个token的超大上下文窗口。未来计划将这一数值扩展至200万token。

AI初创公司Matrisk的联合创始人Sergey Filimonov特别强调了Gemini 2.5 Pro在PDF视觉引用方面的突出表现。

Filimonov指出,传统的文本分割方法往往割裂了用户与原文之间的视觉联系,导致无法直观验证信息来源。即使是ChatGPT,在处理引用时也只能下载完整的PDF文件供用户自行判断模型是否出现”幻觉”,这严重影响了用户体验和信任度。

以往在处理文档引用时,通常只能高亮大段无关文本,精准度极低。而Gemini 2.5实现了革命性突破:它不仅可以将提取的文本片段准确定位到原始PDF的准确位置,还能以空前的精度识别并标注特定句子、表格单元甚至图像。

这种创新技术为用户带来了直观的视觉反馈。例如,在处理财务报告时,Gemini 2.5可以精确标记关键数据点及其在文档中的具体位置(如图1所示)。

谷歌Gemini 2.5 Pro:首个掌握PDF布局解析与精准引用的AI模型

Gemini 2.5的实用价值远不止于文本定位。它还能从PDF文档中提取结构化数据,并明确标注每个数据项的来源位置,这在解决后续决策中的信任问题方面具有重要意义。

© 版权声明

相关文章