4月7日消息,Meta公司近期发布了一款名为Maverick的新旗舰AI模型,并在权威测试平台LM Arena中取得了第二名的成绩。然而,这一成绩的含金量却引发了广泛的质疑和讨论。
Meta在其官方公告中明确指出,参与LM Arena测试的Maverick版本是一个经过特殊优化的“实验性聊天版本”。根据Llama官方网站的信息显示,Meta在LM Arena测试中使用的是专为对话场景优化的“Llama 4 Maverick”。这意味着该模型经过了特别调整,以更好地适应LM Arena的测试环境和评分标准。
然而,多位行业专家和技术博主指出,用于测试的Maverick版本与实际提供给开发者的版本存在显著差异。测试显示,测试版Maverick在对话流畅性和响应速度上表现不佳,常常出现回答冗长、逻辑不清的问题。
截至目前,Meta公司以及LM Arena的维护方Chatbot Arena均未对此作出回应。业内普遍认为,这种“双标”做法可能会影响开发者对Meta产品的信任度,同时也引发了人们对AI评测标准和透明度的进一步思考。
© 版权声明
文章版权归作者所有,未经允许请勿转载。