4月30日,在首届LlamaCon大会上,Meta公司不仅推出了独立的AI应用,还重磅发布了全新的Llama API服务。目前,该API以免费预览的形式向全球开发者开放。
据官方博文中介绍,Llama API支持开发者测试包括Llama 4 Scout和Llama 4 Maverick在内的最新模型版本,并为用户提供了一键式API密钥创建功能。此外,该平台还提供了轻量级的TypeScript和Python SDK,极大简化了开发流程。
开发者只需通过简单的操作即可快速获取API密钥并开始使用服务。Llama API还实现了对OpenAI SDK的完全兼容性,这将为希望从OpenAI平台迁移应用的开发者提供无缝衔接的支持。
为提升API性能,Meta携手Cerebras和Groq进行了深度优化。其中,Cerebras宣称其专为Llama API打造的Llama 4 Cerebras模型,在生成速度上实现了突破:每秒可处理高达2600个tokens,相较于传统GPU方案快了18倍。
根据Artificial Analysis的基准测试数据,这一性能表现远超当前主流产品。例如,ChatGPT的生成速度为130 tokens/秒,而DeepSeek也只有25 tokens/秒。
Cerebras的CEO兼联合创始人Andrew Feldman表示:”我们很高兴能让Llama API成为全球最快的推理API。开发者在构建实时应用时需要极致的速度体验,而通过与Cerebras的合作,我们成功地将AI系统的性能提升到了GPU云服务无法企及的高度。”
此外,Groq提供的Llama 4 Scout模型也展现出色性能,每秒可生成460个tokens,虽然略逊于Cerebras方案,但仍比其他基于GPU的解决方案快了4倍。在具体费用方面,Groq平台上的Llama 4 Scout每百万tokens输入费用为0.11美元,输出费用为0.34美元;而Llama 4 Maverick的输入费用为0.50美元,输出费用则为0.77美元。