问题——智能体加速落地,算力成本成为“卡脖子”环节;随着企业在客服、营销、运营、开发运维等环节引入智能体,任务从“单轮问答”转向“自主规划、多轮迭代、长上下文处理”,Token消耗显著上升,推理需求波峰波谷更为明显。,部分企业自建或集中采购的推理资源在实际运行中利用率偏低,投入与产出不匹配,导致“用得起硬件、用不起推理”“有算力却不高效”的矛盾凸显。华为云在会上披露的案例数据显示,一些推理池平均利用率不足三成,资源闲置与高成本并存,成为企业规模化应用智能体的主要掣肘。 原因——资源供给方式与业务负载不匹配,叠加技术门槛与场景错位。一是推理业务天然具备不均衡特征,企业业务高峰集中、碎片化调用多,传统静态分配模式难以随需伸缩,造成“高峰不够用、低谷大量空转”。二是智能体链路更长、调用更复杂,对算力调度、并发管理、模型服务能力提出更高要求,中小企业往往缺乏对底层资源池、模型部署与工程化优化的专业团队。三是应用端存在“工具很多、落地不易”的现实:先进生产力工具持续涌现,但在具体业务中常遭遇成本评估难、数据对接难、流程闭环难等问题,出现“场景错位、试点热闹、规模受阻”的情况。 影响——算力效率决定企业智能化的边界,也决定中小企业能否普惠受益。算力是智能体应用基础投入项,若Token成本无法有效控制,企业将不得不压缩调用频次、限制场景范围,智能化收益难以扩散至核心流程;若资源利用率长期偏低,企业会在资金占用、运维复杂度与迭代效率上承受更大压力,更抬高技术门槛。对中小企业而言,算力若不能“按需、按量、按成本精算”,智能化转型就难以从试点走向常态化运营。 对策——以“柔性供给+平台化能力”降低门槛,推动从“拍板调度”到“精细算账”。会上,华为云发布柔性智算操作系统FlexNPU,定位于面向智能体时代的AI Infra层关键能力,通过更灵活的算力调度与伸缩机制,提升推理池有效算力利用率,在相同硬件投入下提升Token吞吐能力,从而优化单位推理成本。华为云对应的负责人表示,将以更柔性的算力服务适配中小企业轻量化需求,推动成本核算更精细、资源使用更可控,着力破解“用不起、用不好”的关键问题。 与此同时,华为云发布面向中小企业的AI解决方案,覆盖从基础设施、模型服务到智能体平台与应用的全链条:在基础设施层提供多代昇腾产品与自研基础软件能力,面向小模型训练与推理弹性需求提升资源使用效率;在模型服务层支持主流开源模型选型与企业低成本微调,帮助企业结合自有数据构建更贴合业务的专属模型;在智能体平台层提供面向开发者的开发环境,提升构建企业级智能体的效率;在应用层联合伙伴深入场景,覆盖洞察分析、营销运营、协同办公、开发运维、内容生产等高频需求,并强调与伙伴分工协同:平台做“底座”,伙伴做“行业化与交付”,以共创方式降低企业落地难度。 此外,华为云同步提出“加速智能化 企业快成长行动2026”,从品牌、商业与技术等维度为中小企业与开发者提供支持,意在通过生态化供给扩大可复制的行业场景,加快从“单点试用”向“流程闭环”的迁移。 前景——算力将从“堆规模”转向“提效率”,智能体普及取决于成本曲线与工程化能力。业内普遍认为,随着智能体在业务中承担更多“可执行”的任务,推理请求将更频繁、更长链路、更强并发,企业对算力的核心诉求将从“能跑起来”转向“能持续、可控、可扩展”。未来一段时间,提升推理池利用率、完善弹性伸缩与精细化计费,将成为影响企业大规模部署智能体的关键变量。面向中小企业市场,谁能把复杂的底层调度与工程优化封装为可用的产品化能力,谁就更可能推动智能化从“少数企业先行”走向“更多企业可用”。
在数字化深入发展的当下,高效利用算力已成为企业竞争力的重要体现。华为云FlexNPU的创新实践证明,通过底层技术突破既能提升效能又可降低门槛。这不仅推动了云计算发展,更为中小企业参与智能化转型提供了可行方案。当弹性算力真正普及之时,或将重塑整个产业的智能化发展格局。