
前沿资讯
1755072447更新
0
8月12日,2025金融AI推理应用落地与发展论坛在上海举行。会上,华为正式发布AI推理创新技术:UCM推理记忆数据管理器,并宣布与中国银联率先在金融典型场景开展联合试点,在‘客户之声’业务中实现125倍的推理速度提升。华为同时宣布,UCM将于今年9月正式开源,面向全行业开放共享。
▲ 左:华为数字金融军团CEO曹冲;中:中国银联执行副总裁涂晓军;右:华为公司副总裁、数据存储产品线总裁周跃峰;
华为公司副总裁、数据存储产品线总裁周跃峰博士指出,AI正进入“Token经济”时代,推理效率与体验均围绕Token计量。“企业既要保障流畅体验,又要控制算力成本,平衡点成为行业痛点。”UCM通过“推理框架—算力—存储”三层协同,推出三大核心组件:对接多引擎与算力的Connector、支持多级KV Cache管理及加速算法的Accelerator”,以及高性能存取适配器Adapter,实现“更优体验、更低成本”。
技术优势:1、更优的推理体验:依托层级化自适应全局前缀缓存技术,首Token时延最大降低90%;长文本上下文窗口扩展至原有10倍,突破模型与资源限制。2、更低的推理成本:智能分级缓存结合稀疏注意力算法,实现长序列场景下TPS提升2至22倍,显著降低每Token成本。
在中国银联“客户之声”业务试点中,部署UCM后,大模型仅用10秒即可精准识别客户高频问题,推理速度提升125倍,服务质量显著改善。中国银联执行副总裁涂晓军表示,银联将依托国家人工智能应用中试基地,联合华为等伙伴共建“AI+金融”示范,推动技术从实验室走向规模化应用。
论坛现场,华为正式公布了UCM开源计划。UCM将通过统一南北向接口,兼容多种推理引擎、算力及存储系统,9月率先开源,后续逐步贡献给主流推理引擎社区,携手产业共筑繁荣生态。