近日,一项最新研究揭示了一个令人震惊的事实:人类在解读指针式时钟方面的准确率高达89.1%,而目前最顶尖的人工智能(AI)模型却仅有13.3%的准确率。这一显著差距凸显了当前语言模型在视觉推理能力上的重大局限。
这项名为“ClockBench”的测试由阿莱克·萨法尔(Alek Safar)主导,旨在对比不同语言模型与人类在解读时钟方面的表现。来自六家企业的11个大型语言模型与5名人类测试者展开了直接较量。该测试共包含180个精心设计的指针式时钟和720道相关题目,力求做到“人类易上手、AI难突破”。这种设计理念在ARC-AGI和SimpleBench等基准测试中也有体现。
为了确保测试的公平性,并避免与现有模型训练数据重叠,萨法尔从零开始构建了这一全新的数据集。数据集中包含了36种独特的钟表设计,涵盖了罗马数字与阿拉伯数字混用、多方向布局、时针标识、镜像排列以及彩色背景等多种复杂元素。每种设计均制作了5个不同的时钟版本,最终组成180个测试样本。
测试涵盖四类问题:时间识别、时间计算、指针角度调整和时区转换。针对不同类型的时钟,萨法尔设置了差异化的误差容忍度标准。例如,仅带有时针的时钟允许的误差范围较之同时具备时针、分针和秒针的时钟更为宽松。
与以往侧重知识储备的测试(如“人类终极测试”)不同,“ClockBench”对AI提出了更高的要求。研究结果表明,即使是看似简单的视觉任务,AI的表现仍然令人失望。
在所有参测模型中,谷歌的Gemini 2.5 Pro表现最佳,准确率达到13.3%;其姊妹模型Gemini 2.5 Flash紧随其后,准确率为10.5%。GPT-5以8.4%的准确率位居第三。值得注意的是,增加推理预算对提升AI准确度的作用有限。
Grok 4的表现最为令人意外,其准确率仅为0.7%。更值得关注的是,该模型将高达63.3%的时钟判定为“无效”,而实际上180个测试样本中仅37个显示的是“不可能时间”。这种过于谨慎的态度使得Grok 4在技术层面上看似正确答案最多,但这只是通过随机标记实现的。
Anthropic公司的Claude 4 Sonnet和Claude 4.1 Opus表现同样不佳,准确率分别为4.2%和5.6%。研究显示,有高达61.7%的时钟未能被任何一个AI模型正确解读。
除了准确率,误差程度更能反映问题的本质。人类读取时间的中位误差仅为3分钟,而表现最好的AI模型中位误差为1小时,最差的则达到3小时——对于12小时制时钟而言,这几乎等同于随机猜测。
研究发现,部分钟表特征对AI来说难度极大:当钟表采用罗马数字时,AI准确率仅为3.2%;使用圆形数字时,准确率也只有4.5%。此外,秒针、彩色背景和镜像布局等因素也会显著影响AI的判断能力。
相比之下,仅含时针的时钟对AI来说相对容易(准确率23.6%),这得益于其更高的误差容忍度。采用阿拉伯数字和标准表盘设计的时钟,则能令AI取得相对更好的成绩。
测试中还发现一个有趣的规律:当AI成功读取时间后,在后续的时间计算、指针调整或时区转换任务中,其表现反而较为理想。这表明AI面临的最大挑战并非“进行时间相关的数学运算”,而是“从视觉信息中准确提取时间”这一初始步骤。
萨法尔认为,造成这种差距的原因可能包括以下几点:首先,解读指针式时钟对模型的视觉推理能力提出了极高的要求;其次,罕见或特殊的钟表设计在AI训练数据中极为匮乏;最后,将复杂的钟表视觉信息转化为文字描述本身就是一个巨大的挑战。
作为一项长期基准测试,“ClockBench”的完整数据集目前处于保密状态,以防止被用于污染未来的AI训练过程。不过,研究团队已经公开了一个较小规模的数据集供研究人员使用。
尽管所有模型在该测试中的得分都不理想,但萨法尔仍然看到了一丝希望:表现最好的模型准确率仍高于随机猜测,并展现出一定的视觉推理基础能力。然而,这些能力能否通过“扩大现有方法规模”来显著提升,抑或是需要完全依赖全新的技术路径实现突破,目前尚无定论。
值得一提的是,一年前中国的一项研究也曾揭示多模态语言模型在类似任务上的能力短板。然而,当时的测试结果显示GPT-4o模型在包含“读时钟、读仪表”的任务中准确率高达54.8%。相比之下,此次“ClockBench”测试中AI的最佳准确率仅为13.3%,这一显著差距既反映了新基准测试难度的提升,也表明AI在解读指针式时钟方面的能力并未取得实质性进步。