近日,一项突破性的研究结果引起了广泛关注。美国加州大学圣地亚哥分校的研究团队宣布,他们首次通过实证验证了人工智能系统能够成功通过标准三方图灵测试。
图灵测试,这一概念由英国科学家阿兰·图灵在1950年提出,最初被称为”模仿游戏”。他设想通过文本交流的方式,如果提问者无法区分对方是机器还是人类,则认为该机器具备类人智能。而三方图灵测试则进一步升级了这一概念:参与者需要同时与一名人类和一台AI进行对话,并准确识别出人类身份。
此次研究选取了三款主流AI模型作为测试对象:OpenAI的GPT-4.5、Meta的Llama 3.1 405B以及OpenAI的GPT-4o。实验设计了一个分屏对话界面,参与者需要与一名人类和一台AI进行五分钟的互动交流。每轮对话结束后,参与者需判断哪一方是真实的人类。
测试分为两种模式:基础指令(NO-PERSONA)和增强型PERSONA模式。在PERSONA模式下,研究人员引导AI模拟特定人类行为特征。测试结果显示,在这种模式下:GPT-4.5表现出色,其被误认为人类的概率高达73%;Llama 3.1-405B的胜率约为56%;而未启用该模式的GPT-4o表现相对逊色,仅21%。
在对话内容方面,研究人员发现,参与者主要进行了日常交流话题的讨论。其中,70%以上的对话涉及生活相关的话题,如兴趣爱好、工作经验等;另有20%左右涉及时事热点和科技新闻。这种设计更贴近真实的人际互动场景。
值得注意的是,在模拟人类行为方面,GPT-4.5不仅在回答内容上表现出色,其语言风格也更加自然流畅。这种进步使得AI系统在复杂对话中的表现更为逼真,进一步缩小了与人类的差距。
© 版权声明
文章版权归作者所有,未经允许请勿转载。