华为&中科弘云发布AI推理加速联合方案，支持主流算力平台

56 0 0

12月23日，华为数据存储与中科弘云共同推出了AI推理加速联合解决方案。

这一方案以华为OceanStor A系列存储作为核心的数据基础平台，结合中科弘云的智算互联网云服务平台HyperCN，旨在优化长序列推理的性能体验。

该联合解决方案整合了华为OceanStor A系列存储、华为UCM推理记忆数据管理技术以及中科弘云HyperCN平台的多项能力。通过KV Cache多级缓存管理、秒级算力调度、分钟级推理大模型部署及全流程AI工具链，将智能算力高效输送至业务一线。

该方案的核心优势体现在以下方面：

异构管理：
支持平台、计算与存储的协同联动，兼容英伟达、华为昇腾、寒武纪等多样化的AI算力，同时支持MindSpore / vLLM/SGLang等主流框架，并通过Kubernetes与华为OceanStor A系列存储实现无缝对接。
算力调度：
提供对算力资源的细粒度切分与池化处理，按需灵活调度，最大化资源利用率；具备集群作业调度、运维监控、故障恢复等功能，支持分钟级任务恢复与系统健康监测。
推理加速：
借助华为UCM技术，将KV Cache持久化至华为OceanStor A系列存储，实现推理记忆的全量保存，减少重复计算；同时融合Prefix Cache、GSA稀疏加速等算法，显著降低首Token时延（TTFT），使长序列推理吞吐与体验得到显著提升。
端到端AI工具链：
覆盖数据管理标注、算法开发、大小模型训练推理、智能体开发等全流程，支持传统机器学习与深度学习开发，实现AI资产的统一建设与集中管理。

实测数据显示，在智能问答的典型推理场景中，该方案使首Token时延（TTFT）降低了57.5%，且序列长度越长，优化效果越显著；在长文档推理场景中，结合GSA稀疏加速算法，当序列长度为39K时，并发能力提升了86%，推理吞吐提升了36%。

目前，该联合方案已在能源电力、智能制造、国家实验室等关键行业启动试点应用。