华为云发布柔性智算操作系统FlexNPU 以弹性调度破解企业推理算力低效与成本难题

问题——智能体加速落地，算力成本成为“卡脖子”环节；随着企业在客服、营销、运营、开发运维等环节引入智能体，任务从“单轮问答”转向“自主规划、多轮迭代、长上下文处理”，Token消耗显著上升，推理需求波峰波谷更为明显。，部分企业自建或集中采购的推理资源在实际运行中利用率偏低，投入与产出不匹配，导致“用得起硬件、用不起推理”“有算力却不高效”的矛盾凸显。华为云在会上披露的案例数据显示，一些推理池平均利用率不足三成，资源闲置与高成本并存，成为企业规模化应用智能体的主要掣肘。原因——资源供给方式与业务负载不匹配，叠加技术门槛与场景错位。一是推理业务天然具备不均衡特征，企业业务高峰集中、碎片化调用多，传统静态分配模式难以随需伸缩，造成“高峰不够用、低谷大量空转”。二是智能体链路更长、调用更复杂，对算力调度、并发管理、模型服务能力提出更高要求，中小企业往往缺乏对底层资源池、模型部署与工程化优化的专业团队。三是应用端存在“工具很多、落地不易”的现实：先进生产力工具持续涌现，但在具体业务中常遭遇成本评估难、数据对接难、流程闭环难等问题，出现“场景错位、试点热闹、规模受阻”的情况。影响——算力效率决定企业智能化的边界，也决定中小企业能否普惠受益。算力是智能体应用基础投入项，若Token成本无法有效控制，企业将不得不压缩调用频次、限制场景范围，智能化收益难以扩散至核心流程；若资源利用率长期偏低，企业会在资金占用、运维复杂度与迭代效率上承受更大压力，更抬高技术门槛。对中小企业而言，算力若不能“按需、按量、按成本精算”，智能化转型就难以从试点走向常态化运营。对策——以“柔性供给+平台化能力”降低门槛，推动从“拍板调度”到“精细算账”。会上，华为云发布柔性智算操作系统FlexNPU，定位于面向智能体时代的AI Infra层关键能力，通过更灵活的算力调度与伸缩机制，提升推理池有效算力利用率，在相同硬件投入下提升Token吞吐能力，从而优化单位推理成本。华为云对应的负责人表示，将以更柔性的算力服务适配中小企业轻量化需求，推动成本核算更精细、资源使用更可控，着力破解“用不起、用不好”的关键问题。与此同时，华为云发布面向中小企业的AI解决方案，覆盖从基础设施、模型服务到智能体平台与应用的全链条：在基础设施层提供多代昇腾产品与自研基础软件能力，面向小模型训练与推理弹性需求提升资源使用效率；在模型服务层支持主流开源模型选型与企业低成本微调，帮助企业结合自有数据构建更贴合业务的专属模型；在智能体平台层提供面向开发者的开发环境，提升构建企业级智能体的效率；在应用层联合伙伴深入场景，覆盖洞察分析、营销运营、协同办公、开发运维、内容生产等高频需求，并强调与伙伴分工协同：平台做“底座”，伙伴做“行业化与交付”，以共创方式降低企业落地难度。此外，华为云同步提出“加速智能化企业快成长行动2026”，从品牌、商业与技术等维度为中小企业与开发者提供支持，意在通过生态化供给扩大可复制的行业场景，加快从“单点试用”向“流程闭环”的迁移。前景——算力将从“堆规模”转向“提效率”，智能体普及取决于成本曲线与工程化能力。业内普遍认为，随着智能体在业务中承担更多“可执行”的任务，推理请求将更频繁、更长链路、更强并发，企业对算力的核心诉求将从“能跑起来”转向“能持续、可控、可扩展”。未来一段时间，提升推理池利用率、完善弹性伸缩与精细化计费，将成为影响企业大规模部署智能体的关键变量。面向中小企业市场，谁能把复杂的底层调度与工程优化封装为可用的产品化能力，谁就更可能推动智能化从“少数企业先行”走向“更多企业可用”。

在数字化深入发展的当下，高效利用算力已成为企业竞争力的重要体现。华为云FlexNPU的创新实践证明，通过底层技术突破既能提升效能又可降低门槛。这不仅推动了云计算发展，更为中小企业参与智能化转型提供了可行方案。当弹性算力真正普及之时，或将重塑整个产业的智能化发展格局。