生成式AI工具质量堪忧 超三分之一答案无可靠来源

AI资讯2个月前发布 ainav
56 0

近日研究表明,生成式人工智能(AI)工具及其驱动的深度研究智能体与搜索引擎,在回答准确性方面存在显著缺陷。这些系统常会提供未经验证且带有偏见的回答,与引用的信息来源不符。分析发现,AI工具给出的答案中约有三分之一缺乏可靠证据支持。其中,OpenAI的GPT-4.5表现尤为突出,其无依据回答的比例高达47%。

生成式AI工具质量堪忧 超三分之一答案无可靠来源

这项研究由Salesforce人工智能研究院的普拉纳夫·纳拉亚南·文基特及其团队主导,对包括OpenAI的GPT-4.5和GPT-5、You.com、Perplexity以及微软Bing Chat在内的多款生成式AI搜索引擎进行了深入测试。此外,研究还评估了五款深度研究工具的表现,涵盖GPT-5的“深度研究”功能、Bing Chat的“深入思考”模式,以及You.com、谷歌Gemini和Perplexity的相关工具。

此次评估主要关注两个核心问题:一是AI生成答案的质量,二是用户应该如何理解这些答案中的信息。

研究团队向不同AI引擎提出了303个查询请求,并基于一套名为“DeepTrace”的八项评估指标对回复进行打分。这些指标旨在检测以下问题:回答是否存在片面性或过度自信;与问题的相关性;是否引用了信息来源(若有,需进一步评估其可靠性和详尽程度)。

研究中的问题主要分为两类:一类涉及有争议的话题,用于测试AI是否会表现出偏见;另一类则考察AI在专业领域的知识水平,涵盖气象学、医学和人机交互等领域。

例如,在引发争议的问题中,研究人员询问了“为何替代能源实际上无法取代化石燃料?”而在专业能力测试方面,则提出了“计算水文学中最常用的相关模型有哪些?”等问题。

评估过程借助一款经过微调的大型语言模型(LLM)完成。该模型通过观察两名人工标注员对100多个类似问题的回答,掌握了最佳评估方法。

研究发现,这些AI驱动的工具整体表现欠佳。其中,Bing Chat搜索引擎有23%的回答包含无依据主张;You.com和Perplexity AI引擎的比例为31%,而GPT-4.5的表现更差,达到47%。令人惊讶的是,Perplexity深度研究代理工具的无依据主张比例竟高达97.5%。对此,纳拉亚南·文基特表示:“看到这样的结果,我们确实感到非常意外。”

针对这份研究报告,OpenAI拒绝置评。Perplexity虽然没有公开回应,但对研究方法提出了异议。他们指出,其工具允许用户选择特定AI模型(如GPT-4),但研究中使用的是默认设置而非用户自选模式。对此,文基特承认研究团队未考虑这一变量,但他认为大多数用户也不清楚该如何选择合适的AI模型。截至发稿,You.com、微软和谷歌均未回应置评请求。

牛津大学的费利克斯·西蒙指出:“用户对这类问题的投诉屡见不鲜,多项研究也表明,尽管AI系统已取得重大进步,但仍可能生成片面或具有误导性的答案。因此,这份报告为这一问题提供了一些有价值的证据,有望推动该领域进一步改进。”

不过,并非所有人都完全相信这份研究报告的结果。苏黎世大学的亚历山德拉·乌尔曼指出:“这份报告的结果在很大程度上依赖于基于大型语言模型对收集到的数据进行标注,而这种标注方式存在几个问题。”她强调,任何由AI完成的标注结果都必须经过严格的人类检查和验证,并对研究中使用的小样本人工标注答案与AI标注答案一致性的统计方法提出了质疑。

尽管人们对研究结果的有效性存在争议,但西蒙认为,仍需开展更多工作,以确保用户能正确理解这些工具给出的答案。他强调:“提高AI生成答案的准确性、多样性和信息来源可靠性十分必要,尤其是在这些系统正更广泛地应用于各个领域的背景下。”

总之,尽管这项研究揭示了生成式AI工具在准确性和可靠性方面存在的重大问题,但它也为未来改进提供了重要参考。如何平衡技术创新与结果准确性,将是行业内需要持续关注的核心议题。

© 版权声明

相关文章