Meta发布Llama API，2600 tokens/s：携手Cerebras推出最快AI推理方案

51 0 0

4月30日，在首届LlamaCon大会上，Meta公司不仅推出了独立的AI应用，还重磅发布了全新的Llama API服务。目前，该API以免费预览的形式向全球开发者开放。

据官方博文中介绍，Llama API支持开发者测试包括Llama 4 Scout和Llama 4 Maverick在内的最新模型版本，并为用户提供了一键式API密钥创建功能。此外，该平台还提供了轻量级的TypeScript和Python SDK，极大简化了开发流程。

开发者只需通过简单的操作即可快速获取API密钥并开始使用服务。Llama API还实现了对OpenAI SDK的完全兼容性，这将为希望从OpenAI平台迁移应用的开发者提供无缝衔接的支持。

为提升API性能，Meta携手Cerebras和Groq进行了深度优化。其中，Cerebras宣称其专为Llama API打造的Llama 4 Cerebras模型，在生成速度上实现了突破：每秒可处理高达2600个tokens，相较于传统GPU方案快了18倍。

根据Artificial Analysis的基准测试数据，这一性能表现远超当前主流产品。例如，ChatGPT的生成速度为130 tokens/秒，而DeepSeek也只有25 tokens/秒。

Cerebras的CEO兼联合创始人Andrew Feldman表示：”我们很高兴能让Llama API成为全球最快的推理API。开发者在构建实时应用时需要极致的速度体验，而通过与Cerebras的合作，我们成功地将AI系统的性能提升到了GPU云服务无法企及的高度。”

此外，Groq提供的Llama 4 Scout模型也展现出色性能，每秒可生成460个tokens，虽然略逊于Cerebras方案，但仍比其他基于GPU的解决方案快了4倍。在具体费用方面，Groq平台上的Llama 4 Scout每百万tokens输入费用为0.11美元，输出费用为0.34美元；而Llama 4 Maverick的输入费用为0.50美元，输出费用则为0.77美元。

# AI资讯