Llama4发布前隐测27版仅选最优

AI资讯4个月前发布 ainav

106 0 0

近日，一篇长达68页的论文在AI领域引发广泛关注，直指大模型竞赛场LMArena存在不公平竞争现象。

论文指出，Llama4团队在发布前曾私下测试27个不同版本，并选择最佳成绩参赛。这种”刷榜”行为被认为严重违背了公开、公平的原则。作者通过数据分析揭示了当前榜单评估体系的多个缺陷：

1. 模型训练数据与测试环境存在显著偏差
2. 评测指标未能充分反映真实应用场景表现
3. 榜单更新机制不够透明，缺乏有效监督

对此，LMArena官方迅速作出回应，对论文中的指控逐一反驳：

– 声称论文中关于模型开放比例的数据严重失实，实际开源模型占比远高于声称的8.8%
– 质疑”性能提升112%”这一说法的科学性
– 强调其排名政策一直公开透明，并严格规定上榜模型必须可供公众使用

为应对当前评估体系的局限性，论文作者提出了一个新方案OpenRouter。该平台致力于提供统一API接口访问不同模型，并更关注实际应用表现。

目前，双方争议仍在持续。但这场论战无疑给AI社区敲响了警钟：单一榜单可能难以全面反映模型的真实水平，多元化评测体系的建设迫在眉睫。

（本文摘编自量子位《68 页论文再锤大模型竞技场！Llama4 发布前私下测试 27 个版本，只取最佳成绩》）

文章版权归作者所有，未经允许请勿转载。

ainav

47 0

ainav

4 0

ainav

42 0

ainav

45 0

ainav

42 0

ainav

64 0