AMD挑战英伟达：纯硬件AI大模型ZAYA1发布

132 0 0

近日，AMD公司携手IBM与AI初创企业Zyphra共同宣布了一项重要成果：经过为期一年多的深度合作，他们基于AMD硬件成功打造出全球首个大型混合专家（MoE）基础模型——ZAYA1。

该项目的核心技术细节已通过博文对外公布。ZAYA1是首个完全依赖于AMD硬件生态系统的混合专家模型，其整个训练过程在IBM Cloud平台完成。项目采用了包括AMD Instinct MI300X GPU、Pensando网络技术和ROCm软件平台等在内的多项领先技术，并已在arXiv上发布详细报告。

为确保ZAYA1的成功训练，三方共同构建了一个专属的超大规模训练集群。该集群由128个计算节点组成，每个节点配备8块AMD MI300X GPU，总计达到1024块GPU规模，并通过AMD InfinityFabric技术实现高速互联。

该训练集群展现出卓越的计算能力，峰值性能超过750 PFLOPs（每秒75亿亿次浮点运算）。Zyphra团队还特别开发了一套针对AMD平台优化的高效训练框架，为模型的成功训练提供了重要保障。

在预训练阶段，ZAYA1采用了总量达14万亿（14T）tokens的数据集，并采取了独特的分阶段学习策略：从非结构化的通用网络数据逐步过渡到经过严格组织的数学、代码和推理类高质量数据。

权威测试结果显示，ZAYA1在各项性能指标上与行业标杆Qwen3系列模型持平，且优于SmolLM3和Phi4等主流开源模型。特别是在未经专门指令微调的情况下，其推理版本在数学、STEM等领域表现已接近Qwen3的专业水平。

ZAYA1的卓越性能源于其创新性的模型架构设计。首先，它引入了革命性的CCA（Compressive Convolutional Attention）注意力机制，在传统注意力模块中融入卷积操作，显著降低了计算开销和内存占用。

其次，ZAYA1对混合专家模型中的线性路由进行了重大改进，设计出新的路由结构，极大提升了模型的表达能力和各专家模块的专业化水平。这些创新成功突破了传统Transformer架构面临的计算与内存瓶颈。

Zyphra公司表示，此次发布的ZAYA1只是一个起点。当前版本仅为基础模型预览，未来团队计划推出经过完整后训练（post-trained）的正式版本，并将分享更详细的性能评测和实践经验。

# AI资讯

文章版权归作者所有，未经允许请勿转载。

王兴兴解析：宇树机器人为什么不干活？——技术尚缺临门一脚

ainav

131 0

SimilarWeb：全球AI流量趋势——谁与ChatGPT争锋？

ainav

147 0

华为&中科弘云发布AI推理加速联合方案，支持主流算力平台

ainav

136 0

马国因Grok AI生成淫秽内容封禁用户访问

ainav

100 0

谷歌生图模型 Nano Banana 挑战 Adobe Photoshop

ainav

127 0

全球首例：俄罗斯”胜利航空”启用人形机器人空乘

ainav

98 0

AMD挑战英伟达：纯硬件AI大模型ZAYA1发布

Meta 导入 TPU AI 芯片

腾讯混元开源OCR模型：轻量级设计，性能领先

相关文章

搜索

热门文章

热门网址