科大讯飞携手华为实现算力集群突破

AI资讯6天前发布 ainav
13 0

3月11日,科大讯飞研究院宣布与华为在国产算力领域取得重要进展。双方联合团队成功攻克了基于昇腾集群的MoE(混合专家)模型大规模跨节点并行推理技术,这是继DeepSeek推出训练推理方案后,在国产算力平台上实现的重大突破。

在技术创新方面,联合团队实现了软硬件深度协同优化。特别是在MLA预处理阶段,通过Vector与Cube异构计算单元的流水线设计,并将多个小算子融合为原子级计算单元,显著降低了算子下发的开销。经过验证,在MLA前处理环节的时延降低幅度超过50%,性能指标得到明显提升。

在系统架构优化方面,团队构建了TP(张量并行)+EP(专家并行)的混合范式:针对MLA计算层采用机内TP并行策略,充分发挥昇腾集群的高速互联优势;创新性地实现了MoE专家分层调度机制,将64卡均衡分配至各个专家节点,并通过定制化的AllToAll通信协议提升数据交换效率达40%。同时,团队设计了跨机/机内的双层通信架构,通过分层优化将跨机流量降低60%,并通过路由负载均衡算法确保各卡间负载差异控制在10%以内。

在性能提升方面,通过分布式架构的创新与算法优化,团队实现了多维度的技术突破。单卡静态内存占用较之前降低了75%,仅相当于双机部署时的四分之一;专家计算密度提升了4倍,推理吞吐量增长3.2倍,端到端时延降低幅度达50%。

科大讯飞研究院表示,该技术突破将为”讯飞星火”深度推理模型的训练加速提供重要支持。预计在训练阶段,推理效率将提升200%,同时基于此方案开发的推理引擎也成功实现了对DeepSeek V3和R1模型的支持。

此外,从科大讯飞公告中获悉,其深度推理大模型”星火X1″已完成全面升级。尽管参数量相比行业同类产品少一个数量级,在中文数学能力方面仍实现了对DeepSeek R1和OpenAI o1的全面超越,各项任务均达到领先水平。

© 版权声明

相关文章