科大讯飞携手华为实现算力集群突破

175 0 0

3月11日，科大讯飞研究院宣布与华为在国产算力领域取得重要进展。双方联合团队成功攻克了基于昇腾集群的MoE（混合专家）模型大规模跨节点并行推理技术，这是继DeepSeek推出训练推理方案后，在国产算力平台上实现的重大突破。

在技术创新方面，联合团队实现了软硬件深度协同优化。特别是在MLA预处理阶段，通过Vector与Cube异构计算单元的流水线设计，并将多个小算子融合为原子级计算单元，显著降低了算子下发的开销。经过验证，在MLA前处理环节的时延降低幅度超过50%，性能指标得到明显提升。

在系统架构优化方面，团队构建了TP（张量并行）+EP（专家并行）的混合范式：针对MLA计算层采用机内TP并行策略，充分发挥昇腾集群的高速互联优势；创新性地实现了MoE专家分层调度机制，将64卡均衡分配至各个专家节点，并通过定制化的AllToAll通信协议提升数据交换效率达40%。同时，团队设计了跨机/机内的双层通信架构，通过分层优化将跨机流量降低60%，并通过路由负载均衡算法确保各卡间负载差异控制在10%以内。

在性能提升方面，通过分布式架构的创新与算法优化，团队实现了多维度的技术突破。单卡静态内存占用较之前降低了75%，仅相当于双机部署时的四分之一；专家计算密度提升了4倍，推理吞吐量增长3.2倍，端到端时延降低幅度达50%。

科大讯飞研究院表示，该技术突破将为”讯飞星火”深度推理模型的训练加速提供重要支持。预计在训练阶段，推理效率将提升200%，同时基于此方案开发的推理引擎也成功实现了对DeepSeek V3和R1模型的支持。

此外，从科大讯飞公告中获悉，其深度推理大模型”星火X1″已完成全面升级。尽管参数量相比行业同类产品少一个数量级，在中文数学能力方面仍实现了对DeepSeek R1和OpenAI o1的全面超越，各项任务均达到领先水平。

# AI资讯