Llama4发布前隐测27版仅选最优

AI资讯2天前发布 ainav
1 0

近日,一篇长达68页的论文在AI领域引发广泛关注,直指大模型竞赛场LMArena存在不公平竞争现象。

论文指出,Llama4团队在发布前曾私下测试27个不同版本,并选择最佳成绩参赛。这种”刷榜”行为被认为严重违背了公开、公平的原则。作者通过数据分析揭示了当前榜单评估体系的多个缺陷:

1. 模型训练数据与测试环境存在显著偏差
2. 评测指标未能充分反映真实应用场景表现
3. 榜单更新机制不够透明,缺乏有效监督

对此,LMArena官方迅速作出回应,对论文中的指控逐一反驳:

– 声称论文中关于模型开放比例的数据严重失实,实际开源模型占比远高于声称的8.8%
– 质疑”性能提升112%”这一说法的科学性
– 强调其排名政策一直公开透明,并严格规定上榜模型必须可供公众使用

为应对当前评估体系的局限性,论文作者提出了一个新方案OpenRouter。该平台致力于提供统一API接口访问不同模型,并更关注实际应用表现。

目前,双方争议仍在持续。但这场论战无疑给AI社区敲响了警钟:单一榜单可能难以全面反映模型的真实水平,多元化评测体系的建设迫在眉睫。

(本文摘编自量子位《68 页论文再锤大模型竞技场!Llama4 发布前私下测试 27 个版本,只取最佳成绩》)

© 版权声明

相关文章