GPT-5.2字母图表错多,“人类专家水平”存疑?

AI资讯2个月前发布 ainav
53 0

12月20日消息显示,在12月11日OpenAI推出ChatGPT-5.2版本时,他们一如既往地强调这是”通用智能领域的一次重大突破”。官方声称该模型是目前最适合实际工作场景的专业工具,并自信地表示这是首个在性能上达到或超越人类专家水平的版本。

然而,仅过了不到一周时间,这一说法就受到了严峻挑战。据外媒Futurism报道,在一项极为基础的功能测试中,ChatGPT-5.2的表现令人失望。当被要求为小学生生成一张按英文字母顺序排列的动物挂图时,系统出现了明显错误。

这项测试最初由BCA Research首席全球策略师彼得·贝雷津在11月使用ChatGPT-5.1版本时提出。当时模型未能正确生成完整的英文字母表,仅提供了25个字母,缺少了一个标准英文字母表中应有的26个字母。

对于这一问题,贝雷津幽默地评论道:”看来还需要更多资本支出”,暗指OpenAI已承诺在2025年前投入1.15万亿美元(约合8.11万亿元人民币)用于硬件开发。

当测试升级到ChatGPT-5.2版本时,问题依然存在。虽然某些字母对应的动物有所改进,但系统仍然遗漏了”U”和”Z”两个字母,并在生成序列时直接从”T”跳到了”Y”(对应”Yak”)。最终的字母表以”X”结尾,但令人困惑的是,插图却是一只斑马。

GPT-5.2字母图表错多,“人类专家水平”存疑?

插图本身也存在明显错误,例如:

  • 四肢畸形的袋鼠
  • 长着两条尾巴的鬣蜥
  • 五官错位的独角鲸
  • 带有猫脸特征的刺猬

这些都显示出绘图功能存在严重缺陷。

在后续测试中,情况并未得到改善。这一次模型生成了25个字母,但”Y”再次取代了”U”,并被错误地解释为对应”Unicorn”。结尾处还出现了两个重复的”X”,分别对应”fish”和”X-ray fish”,但依然使用了一张斑马插图。

更令人困惑的是,模型开始将原始提示语混入生成内容中。例如,完整的字母表本应是”A is for alligator, B is for bear…”,却直接出现在海报标题中,破坏了整体的连贯性。

GPT-5.2字母图表错多,“人类专家水平”存疑?

© 版权声明

相关文章