开源AI评分工具：检测大模型错误率

123 0 0

近日，一位名为ionutvi的开发者推出了一款名为AI Benchmark Tool的新工具，该工具旨在量化评估各类人工智能模型的性能表现，为开发人员提供更精准的选择参考。

开发者表示，在使用包括ChatGPT、Grok和Claude等主流AI模型时，他发现了一个普遍现象：这些模型在初期表现良好，但随着时间推移会逐渐出现性能下降的问题。某些情况下，它们会对同样的问题给出截然不同的答案，甚至直接拒绝回答。很多人误以为这是个人使用的错误，但实际上这背后是官方刻意调低了模型的性能参数。这种行为已经被Anthropic等公司证实存在。

正是基于这样的观察，这位开发者决定开发这款AI评分工具。该工具能够自动在多款主流大模型上运行140项复杂任务测试，从准确性、回答稳定性、响应时间等多个维度全面评估AI的表现，并通过综合评分进行排名。

除了性能指标外，该工具还引入了成本效益分析。一些看似便宜的AI服务可能需要多次迭代才能获得可用结果；而价格较高的模型可能仅需少量调用就能得到满意答案。这种多维度评估方法使得开发者能更清晰地比较不同方案的实际价值。

以下是该工具的开源地址：

https://github.com/StudioPlatforms/aistupidmeter-api

# AI资讯