华为发布UCM技术以降低AI对HBM的依赖
华为UCM技术旨在革新AI推理
2025年8月12日,华为在2025金融AI推理应用落地与发展论坛上发布了突破性的UCM(推理内存数据管理器)技术。这项创新将减少中国AI推理对高带宽内存(HBM)的依赖,同时显著提升大规模AI模型的性能。
UCM工作原理
UCM技术专注于KV缓存,整合了多种缓存加速算法。通过对推理过程中产生的内存数据进行分层管理,它扩展了上下文窗口,提供高吞吐量和低延迟,同时降低了每个Token的成本。这种方法缓解了因HBM资源不足导致的常见问题,如任务停滞和响应延迟。

行业合作与专家见解
在论坛上,华为与中国银联合作展示了AI推理应用的最新进展。来自中国信息通信研究院、清华大学和科大讯飞等机构的专家也分享了优化大模型推理的经验。
华为数据存储产品线副总裁范杰强调,未来AI的突破将高度依赖高质量的行业数据。“高性能AI存储可以将数据加载时间从数小时缩短至几分钟,”他指出,“并将计算集群效率从30%提升至60%。”
市场影响
随着AI行业从“追求模型能力极限”转向“优化推理体验”,分析人士指出,推理性能现已成为评估AI商业价值的关键指标。根据长城证券的观点,大模型的进步和商业应用的扩展为算力领域的企业带来了新的机遇。
关键点:
- UCM技术减少AI推理对HBM的依赖
- 通过**高吞吐量和低延迟提升性能
- 行业领袖合作推动AI应用发展
- 未来AI进展取决于数据质量和存储效率
- 市场趋势更倾向于优化而非原始模型能力


