哥大研究:AI搜索工具准度仅六成 自信却不认错

AI资讯4天前发布 ainav
11 0

3月13日,外媒Techspot报道称,哥伦比亚大学数字新闻研究中心近期对八款AI搜索引擎展开了深入研究。

这项研究选取了包括ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot在内的八款主流AI搜索引擎作为测试对象。

研究人员采用了严格的测试方法:从20家新闻机构中随机选取了200篇报道(每家10篇),确保这些报道在谷歌搜索中均能出现在前三位。随后,他们使用相同的查询方式对各款AI搜索引擎进行了全面测试,并重点评估了这些工具在引用文章内容、新闻机构名称和原始链接方面的准确性。

研究发现,除了Perplexity及其付费版外,其余所有AI搜索引擎的表现均未达到预期。从整体数据来看,60%的搜索结果存在不同程度的不准确,而更令人担忧的是,AI搜索引擎对错误答案的“自信度”反而更高

特别值得注意的是,即使是表现相对较好的ChatGPT Search,其完全正确率也只有28%,而完全错误率却高达57%。更令人咋舌的是,当被指出错误时,这些AI搜索引擎还常常会强行自我辩解

在所有测试的引擎中,表现最差的是X旗下的Grok AI,其Grok-3 Search的错误率竟高达94%。微软的Copilot也问题多多:在200次查询中,有104次拒绝回答,而剩下的96次中,仅有16次“完全正确”,14次“部分正确”,其余66次均为“完全错误”,总体错误率接近70%

尽管这些AI工具的开发者尚未公开承认这些问题,但仍在收取高昂的订阅费用:从每月20美元到200美元不等(约合人民币145至1449元)。更讽刺的是,付费版Perplexity Pro和Grok-3 Search虽然回答更多,但其错误率也更高

哥大研究:AI搜索工具准度仅六成  自信却不认错

© 版权声明

相关文章