Meta开源大模型llama-4-maverick 基准测试排名暴跌,刷榜作弊疑云

AI资讯6天前发布 ainav
7 0

4月14日,LMArena更新了Meta最新发布的开源大模型Llama-4-Maverick的排名,其从此前的第2名骤降至第32名。这一变动印证了开发者对Meta为刷榜向LMArena提供”特供版”Llama 4大模型的质疑。

Meta开源大模型llama-4-maverick 基准测试排名暴跌,刷榜作弊疑云

4月6日,Meta发布了最新的大模型Llama 4,包含Scout、Maverick和Behemoth三个版本。其中,Llama-4-Maverick在LMArena公布的Chatbot Arena LLM排行榜中排名第二,仅次于Gemini 2.5 Pro。然而,随着开发者开始测试Llama 4开源版的实际效果,该模型的口碑急转直下。有开发者发现Meta提交给LMArena的Llama 4版本与社区公开的开源版本存在明显差异,从而引发了刷榜作弊的质疑。

Meta开源大模型llama-4-maverick 基准测试排名暴跌,刷榜作弊疑云

4月8日,Chatbot Arena官方正式确认了用户的质疑,承认Meta提供的确实是”特供版”。根据官方声明,Meta最初提交给LMArena的Llama-4-Maverick-03-26-Experimental是一个专门针对聊天功能优化的实验性版本,当时其排名为第二名。而更新后的模型则是与开源社区一致的Llama-4-Maverick-17B-128E-Instruct,该版本在性能上与排行榜上的其他模型相比差距较大。

值得注意的是,目前公开的开源版本Llama-4-Maverick-17B-128E-Instruct在多个评估指标中表现欠佳,这与实验性聊天优化版的表现存在显著差异。这种性能上的落差进一步引发了开发者对Meta特供版模型真实能力的质疑。

对于这一争议,Meta发言人向TechCrunch表示:”我们致力于尝试各种类型的定制变体。Llama-4-Maverick-03-26-Experimental是我们针对聊天功能优化的一个版本,在LMArena测试中表现良好。目前我们已经发布了开源版本,期待看到开发者如何根据自身需求进行定制,并欢迎持续的反馈和建议。”

此次事件不仅揭示了开源模型发布中的潜在问题,也引发了关于排行榜评测标准和模型实际应用场景之间差异的深度讨论。Meta官方表示将继续关注开发者社区的反馈,并推动Llama系列模型的优化与改进。

© 版权声明

相关文章