近日,日本《经济新闻》报道称,一项由民间企业与大型补习机构联合开展的研究显示,中美两国的新型生成式人工智能已经具备通过日本最难入学考试——东京大学理科3类入学考试的实力。然而,在展现出色语言能力的同时,这些AI模型在数学领域仍存在明显短板。
此次测试特别邀请了美国OpenAI的”o1″模型与中国AI初创公司DeepSeek的”R1″模型“参与,解答2025年度东京大学入学试题。测试结果由专业辅导机构Life Prompt输出答案,并交由河合塾讲师进行评分。
综合大学入学统考与二次考试的理科总分(满分550分),”o1″获得374分,”R1″“获得369分,双双超过东京大学于今年3月公布的理科3类最低合格线(368.7分)。
值得注意的是,”R1“在理科1类和理科2类的统考中未能达到合格线。不过,在其他学科类别以及文科考试中,两套AI系统均顺利通过。这意味着AI的表现存在显著差异性。
就具体科目而言,英语科目是两个模型发挥最为出色的领域。”o1“和R1“的得分率均超过75%。河合塾负责英语教学的久恒秀雄讲师评价道:”它们几乎没有出现单词或语法错误,展现出远超东大考生平均水平的能力。”
然而,在数学领域,AI的表现就不那么理想了。尽管最终答案正确率较高,但在涉及图形分析和逻辑论证的问题上,两个模型均出现了明显的论述错误和说明不足现象。具体来看,在理科数学部分,”o1“在满分120分的考试中仅获得38分,”R1“则得到49分。负责数学评分的香坂季京讲师指出:”这一分数远低于合格者的平均水平。”
作为”机器人能否进入东京大学(东Robo)”项目的负责人,国立信息学研究所的新井纪子教授对测试结果作出如下评价:”这是人工智能发展史上的一个重要里程碑。然而,AI仍然存在不可忽视的缺陷,需要人类能够准确判断并熟练运用AI输出的专业人才来辅助其完善。”