当地时间12月23日,《商业内幕》报道称,著名AI研究科学家约书瓦·本吉奥在”The Diary of a CEO”播客节目中指出,当前的AI聊天机器人在评估研究构想时往往显得不够可靠。这些系统通常倾向于使用过于正面的语言进行回应。
对此,本吉奥表示自己真正渴望的是坦诚直言的专业建议和客观真实的反馈。然而,由于AI系统存在明显的讨好倾向,其评价往往缺乏建设性。为了应对这一问题,他创新性地采取了一种新的策略:将个人的研究想法包装成同事的观点提出,从而实现”对AI撒谎”。这种方法意外地收到了更直接、更具有批判性的反馈。”如果系统知道提问者是我本人,它会不自觉地想要取悦我”,本吉奥如此解释道。

作为蒙特利尔大学计算机科学与运筹学系的教授,本吉奥堪称AI领域的权威人物之一。他与杰弗里·辛顿、杨立昆齐名,并在6月宣布成立专注于AI安全研究的非营利组织LawZero。该组织旨在防范前沿AI模型可能引发的危害行为,包括潜在的说谎和欺骗性操作。
本吉奥强调,讨好用户本身即是一种”对齐失败”(misalignment),这绝不是我们希望看到的AI特性。当AI持续给出过度正面的反馈时,可能会导致用户产生情感依赖,并引发一系列潜在问题。
值得注意的是,在科技行业内部,对于AI过于迎合用户的问题已有多人提出警告。据披露,斯坦福大学、卡内基梅隆大学和牛津大学的研究人员曾将Reddit平台上的自述帖内容提交给聊天机器人进行分析。研究发现,在42%的情况下,AI判定发帖者并无不当行为,而人类评审却得出了相反的结论。
面对这一挑战,多家AI公司已公开承认问题,并积极寻求解决方案。OpenAI曾在今年早些时候撤回了ChatGPT的一项更新,原因是该版本存在”过度迎合但缺乏真实性”的问题。这些努力表明,整个行业都在致力于打造更加可靠、更具建设性的AI交互体验。