近日研究表明,大语言模型在理解双关语方面存在明显不足。这一发现揭示了当前AI技术在处理人类语言中的幽默与隐含意义时仍面临重大挑战。

这项研究由英国南威尔士卡迪夫大学与意大利威尼斯福斯卡里宫大学的研究团队共同完成。他们的实验发现,尽管大语言模型能够识别双关语的表层结构特征,但完全无法理解其中蕴含的幽默感。这种能力上的差距凸显了AI在处理人类语言微妙层面时的局限性。
研究者设计了一个典型测试案例:”I used to be a comedian, but my life became a joke.”当将句中具有双关意义的”joke”替换为语义相近但无双关含义的”chaotic”后,大语言模型仍会判定该句包含双关。这一结果表明,模型对双关语的识别依赖于表面特征而非深层语义理解。
另一个测试案例展示了相似的现象:”Long fairy tales have a tendency to dragon.”其中”dragon”与”drag on”构成谐音双关。即使将句中的关键词替换为同义词或完全无关的词汇,大语言模型依然会错误地判定句子包含双关语。
卡迪夫大学计算机科学教授何塞・卡马乔・科拉多斯指出:”大语言模型对幽默的理解仍停留在表面层面。它们只能识别训练数据中出现过的双关模式,但无法真正理解其中的幽默含义。”他进一步解释道,通过修改现有双关语或去除其双重语义,研究团队始终能够’欺骗’这些模型。在这种情况下,模型会基于记忆中的类似结构编造理由,强行将修改后的句子与双关语联系起来。
研究还发现,在面对不熟悉的文字游戏时,大语言模型区分双关语与非双关语句的准确率甚至可能降至惊人的20%。这种低准确性凸显了当前技术在处理复杂语言现象方面的重大局限。
研究人员测试了一个包含专业领域隐喻的双关语:”Old LLMs never die, they just lose their attention.”其中”attention”暗指Transformer架构中的注意力机制。当将”attention”替换为完全无关的词汇”ukulele”时,某个模型竟然仍判定其为双关语,并给出了令人啼笑皆非的理由:声称”ukulele”听起来近似于”You kill LLM”。这种’联想创造力’虽然出人意料,但本质上反映了模型理解机制的机械性。
研究团队强调,这一发现提醒我们,在将大语言模型应用于需要幽默感、共情能力或文化敏感性的任务时必须保持高度警惕。相关研究成果已在本月初举行的’2025年自然语言处理实证方法会议'(EMNLP 2025)上发表,论文题为《双关非本意:大语言模型与幽默理解的幻象》。