哥大研究：AI搜索工具准度仅六成自信却不认错

AI资讯1年前 (2025)发布 ainav

295 0 0

3月13日，外媒Techspot报道称，哥伦比亚大学数字新闻研究中心近期对八款AI搜索引擎展开了深入研究。

这项研究选取了包括ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot在内的八款主流AI搜索引擎作为测试对象。

研究人员采用了严格的测试方法：从20家新闻机构中随机选取了200篇报道（每家10篇），确保这些报道在谷歌搜索中均能出现在前三位。随后，他们使用相同的查询方式对各款AI搜索引擎进行了全面测试，并重点评估了这些工具在引用文章内容、新闻机构名称和原始链接方面的准确性。

研究发现，除了Perplexity及其付费版外，其余所有AI搜索引擎的表现均未达到预期。从整体数据来看，60%的搜索结果存在不同程度的不准确，而更令人担忧的是，AI搜索引擎对错误答案的“自信度”反而更高。

特别值得注意的是，即使是表现相对较好的ChatGPT Search，其完全正确率也只有28%，而完全错误率却高达57%。更令人咋舌的是，当被指出错误时，这些AI搜索引擎还常常会强行自我辩解。

在所有测试的引擎中，表现最差的是X旗下的Grok AI，其Grok-3 Search的错误率竟高达94%。微软的Copilot也问题多多：在200次查询中，有104次拒绝回答，而剩下的96次中，仅有16次“完全正确”，14次“部分正确”，其余66次均为“完全错误”，总体错误率接近70%。

尽管这些AI工具的开发者尚未公开承认这些问题，但仍在收取高昂的订阅费用：从每月20美元到200美元不等（约合人民币145至1449元）。更讽刺的是，付费版Perplexity Pro和Grok-3 Search虽然回答更多，但其错误率也更高。