“华为盘古 Ultra 性能匹敌 DeepSeek-R1,英伟达含量为零,昇腾集群训练”

AI资讯4天前发布 ainav
13 0

盘古Ultra技术报告概述:

1. 模型架构
– 参数规模:700亿参数量(与GPT-3相当)
– 基础设计:基于Transformer架构的稠密连接网络
– 创新点:
* 稀疏化自注意力机制
* 多层次特征抽取网络

2. 训练策略
– 硬件基础:
* 升腾AI集群
* 总体性能与英伟达H100相当
– 并行策略:
* 组合使用数据并行(128路)、张量并行(8路)、序列并行、流水线并行
* 每个训练节点配置:
– CPU:4颗鲲鹏930A
– GPU:2块升腾710AI加速卡
– 网络互联:
* RoCE协议实现低延迟通信

3. 优化技术
– 分布式优化器:
* 使用ZeRO方法降低内存占用
– 计算优化:
* 算子融合减少kernel启动次数
* 通信计算重叠隐藏延迟
* 特定层的通信优化技术(MC²和BOA)
– 效率提升:
* 实现52%以上的算力利用率

4. 技术报告下载
– 链接:https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-ultra-report.pdf

5. 来源说明
– 微信公众号:量子位(QbitAI)
– 作者:克雷西

© 版权声明

相关文章