苹果AI性能再突破:M3 Ultra搭配DGX Spark AI性能提升2.8倍

AI资讯1个月前发布 ainav
39 0

10月17日,EXO Labs展示了其”分布式推理”技术的最新成果,解决了困扰许多AI爱好者的选择难题:是选择苹果Mac Studio还是英伟达DGX Spark作为AI小主机?

通过创新性的实验,EXO Labs同时使用了两台NVIDIA DGX Spark与一台搭载M3 Ultra芯片的Mac Studio,在运行大型语言模型推理任务时,性能较单独使用Mac Studio提升了足足2.8倍。

苹果AI性能再突破:M3 Ultra搭配DGX Spark AI性能提升2.8倍

这项突破源于EXO Labs的开源项目——EXO框架。该框架的独特之处在于,它可以高效支持大语言模型在混合硬件环境下运行。

与传统的单一设备推理方式不同,EXO能够智能地将计算任务分配到多种设备上,使台式机、笔记本、服务器甚至平板电脑和智能手机形成类似WiFi Mesh网络的”AI集群”。这种分布式架构极大地提升了资源利用率。

硬件性能互补:DGX Spark与M3 Ultra的黄金组合

EXO选择DGX Spark和Mac Studio这组看似差异巨大的硬件搭配,其实暗藏玄机。价格为3999美元(约合28505人民币)的DGX Spark主要负责计算密集型任务,而5599美元(约合39910人民币)的Mac Studio则在数据带宽方面表现更优。

实验数据显示,在预填充阶段,DGX Spark的速度比Mac Studio快了3.8倍;但在生成新词元的解码阶段,Mac Studio的表现又优于DGX Spark达3.4倍。这种差异化的性能特点恰恰实现了完美的互补。

苹果AI性能再突破:M3 Ultra搭配DGX Spark AI性能提升2.8倍

大型语言模型的推理过程主要包含两个关键阶段:

  • 预填充阶段:模型处理输入提示,计算性能是瓶颈;

  • 解码阶段:生成新词元,依赖内存带宽。

苹果AI性能再突破:M3 Ultra搭配DGX Spark AI性能提升2.8倍

基于以上分析,EXO的创新方案是将两个阶段分配给不同设备:

DGX Spark专注于计算密集的预填充任务,而M3 Ultra则承担带宽敏感的解码工作。系统通过并行处理和高效的数据传输(称为KV缓存),实现两台设备的同时协作,而非串行等待。

在Meta Llama-3.1 8B模型的基准测试中,这种混合架构相比单独使用Mac Studio,推理性能提升了2.8倍。这一结果充分证明了分布式计算架构的优势。

苹果AI性能再突破:M3 Ultra搭配DGX Spark AI性能提升2.8倍

分布式推理:低成本扩展AI算力的新思路

EXO的实验展示了一种全新的AI性能提升路径。未来的AI发展不再局限于单体设备的性能提升,而是可以通过更智能的硬件协同来实现整体算力的优化。

这种分布式计算的理念也得到了NVIDIA的认可,其新一代Rubin CPX平台设计中就采用了类似的思路:计算密集型任务由专门处理器完成,而高带宽内存芯片负责解码阶段。这与EXO在现有硬件上的实现异曲同工。

苹果AI性能再突破:M3 Ultra搭配DGX Spark AI性能提升2.8倍

EXO 1.0:仍处于早期探索阶段

目前,EXO的最新版本1.0仍属于早期访问阶段。首个开源版本0.0.15-alpha发布于2025年3月,后续计划加入自动调度、KV流式传输和异构硬件优化等功能。

苹果AI性能再突破:M3 Ultra搭配DGX Spark AI性能提升2.8倍

尽管EXO当前仍属于研究级工具,不适合普通用户直接使用,但其展示的技术潜力非常巨大。通过智能调度不同硬件资源,分布式推理架构无需依赖大型数据中心,就能显著提升AI性能。

相关阅读:

  • 《售3999美元,英伟达CEO黄仁勋亲自向马斯克交付DGX Spark迷你超级计算机》

© 版权声明

相关文章