华为发布AI推理创新技术UCM:高吞吐低时延 9月开源

AI资讯4周前发布 ainav
30 0

8月12日,华为正式推出了其最新的AI推理创新技术——UCM(统一缓存管理器)。

据官方介绍,UCM是一款以键值缓存为核心设计的高性能推理加速套件。该技术整合了多种类型的缓存加速算法工具,能够分级化管理AI推理过程中生成的键值记忆数据。通过这一创新机制,UCM不仅显著扩大了推理上下文窗口的容量,还能提供高吞吐量和低延迟的推理体验,同时有效降低每Token的计算成本。目前,华为已经在中国银联的”客户之声”、”营销策划”、”办公助手”三大核心业务场景中进行了初步测试和部署,并在智慧金融领域展现了卓越的应用效果。

按照规划,UCM技术将在2025年9月正式进入开源阶段。届时,这项创新技术将率先通过魔擎社区对外发布,随后逐步融入主流的推理引擎生态系统。华为计划将其核心组件和优化经验分享给所有支持”共享架构”理念的存储厂商及行业合作伙伴,共同推动AI推理技术的发展与进步。

© 版权声明

相关文章