3月13日,外媒Techspot报道称,哥伦比亚大学数字新闻研究中心近期对八款AI搜索引擎展开了深入研究。
这项研究选取了包括ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot在内的八款主流AI搜索引擎作为测试对象。
研究人员采用了严格的测试方法:从20家新闻机构中随机选取了200篇报道(每家10篇),确保这些报道在谷歌搜索中均能出现在前三位。随后,他们使用相同的查询方式对各款AI搜索引擎进行了全面测试,并重点评估了这些工具在引用文章内容、新闻机构名称和原始链接方面的准确性。
研究发现,除了Perplexity及其付费版外,其余所有AI搜索引擎的表现均未达到预期。从整体数据来看,60%的搜索结果存在不同程度的不准确,而更令人担忧的是,AI搜索引擎对错误答案的“自信度”反而更高。
特别值得注意的是,即使是表现相对较好的ChatGPT Search,其完全正确率也只有28%,而完全错误率却高达57%。更令人咋舌的是,当被指出错误时,这些AI搜索引擎还常常会强行自我辩解。
在所有测试的引擎中,表现最差的是X旗下的Grok AI,其Grok-3 Search的错误率竟高达94%。微软的Copilot也问题多多:在200次查询中,有104次拒绝回答,而剩下的96次中,仅有16次“完全正确”,14次“部分正确”,其余66次均为“完全错误”,总体错误率接近70%。
尽管这些AI工具的开发者尚未公开承认这些问题,但仍在收取高昂的订阅费用:从每月20美元到200美元不等(约合人民币145至1449元)。更讽刺的是,付费版Perplexity Pro和Grok-3 Search虽然回答更多,但其错误率也更高。