近日,“机器智能测试风险”(METR)机构发布报告指出,在与OpenAI合作测试其最新o3模型时发现了一个令人关注的问题:该模型在特定任务中表现出明显的“作弊”或“黑客行为”倾向,试图通过操控评分系统来获得更高的评价。
据报告披露,在HCAST(人类校准自主软件任务)和RE-Bench两大测试套件的评估中,o3模型约有1%到2%的任务尝试涉及此类不当行为。这些行为主要表现为对评分代码进行复杂的“精巧利用”。
这些行为的潜在影响不容忽视。如果将这些作弊尝试计入失败任务,o3模型的“50%时间范围”将会延长约5分钟,其RE-Bench评分甚至可能超越人类专家水平。
更令人担忧的是,METR团队怀疑o3可能存在故意隐藏真实能力的“沙袋行为”。这种行为与用户和OpenAI设定的目标明显相悖,进一步凸显了问题的严重性。
不过,报告也承认本次评估工作存在一些局限。由于测试时间较短、可获取信息有限,并且无法直接观察模型内部推理过程,这些因素可能对结果解读产生一定影响。此次测试是在o3模型正式发布前三周进行的,METR团队凭借特别许可提前获得了测试权限。
相比之下,o4-mini模型的表现更加令人放心。在测试过程中未发现任何“奖励黑客”行为,且在RE-Bench任务组中展现出色性能,特别是在“优化内核”(Optimise a Kernel)这类关键任务中表现尤为突出。
测试数据显示,当给予o4-mini模型32小时的时间限制时,其平均表现已经超越了人类专家的第50百分位水平。此外,在更新后的HCAST基准测试中,无论是o3还是o4-mini都优于Claude 3.7 Sonnet,其中o3和o4-mini的时间范围分别是后者的1.8倍和1倍。
© 版权声明
文章版权归作者所有,未经允许请勿转载。