12月23日,华为数据存储与中科弘云共同推出了AI推理加速联合解决方案。
这一方案以华为OceanStor A系列存储作为核心的数据基础平台,结合中科弘云的智算互联网云服务平台HyperCN,旨在优化长序列推理的性能体验。
该联合解决方案整合了华为OceanStor A系列存储、华为UCM推理记忆数据管理技术以及中科弘云HyperCN平台的多项能力。通过KV Cache多级缓存管理、秒级算力调度、分钟级推理大模型部署及全流程AI工具链,将智能算力高效输送至业务一线。
该方案的核心优势体现在以下方面:
-
异构管理:
支持平台、计算与存储的协同联动,兼容英伟达、华为昇腾、寒武纪等多样化的AI算力,同时支持MindSpore / vLLM/SGLang等主流框架,并通过Kubernetes与华为OceanStor A系列存储实现无缝对接。 -
算力调度:
提供对算力资源的细粒度切分与池化处理,按需灵活调度,最大化资源利用率;具备集群作业调度、运维监控、故障恢复等功能,支持分钟级任务恢复与系统健康监测。 -
推理加速:
借助华为UCM技术,将KV Cache持久化至华为OceanStor A系列存储,实现推理记忆的全量保存,减少重复计算;同时融合Prefix Cache、GSA稀疏加速等算法,显著降低首Token时延(TTFT),使长序列推理吞吐与体验得到显著提升。 -
端到端AI工具链:
覆盖数据管理标注、算法开发、大小模型训练推理、智能体开发等全流程,支持传统机器学习与深度学习开发,实现AI资产的统一建设与集中管理。
实测数据显示,在智能问答的典型推理场景中,该方案使首Token时延(TTFT)降低了57.5%,且序列长度越长,优化效果越显著;在长文档推理场景中,结合GSA稀疏加速算法,当序列长度为39K时,并发能力提升了86%,推理吞吐提升了36%。
目前,该联合方案已在能源电力、智能制造、国家实验室等关键行业启动试点应用。
© 版权声明
文章版权归作者所有,未经允许请勿转载。