(问题) 近期,国内AI算力市场出现罕见的集中调价。多家头部云厂商发布公告,上调部分AI算力卡及对应的产品服务价格,涨幅从个位数到三成以上不等。,生成式应用视频生成、智能体推理等场景的计费规则更清晰:以Token为单位的调用成本被明确量化,企业在业务上线后更直接地感受到“用得越多、账单越高”的压力。多家研究机构指出,Token消耗正从过去可忽略的技术指标,转变为企业必须精细管理的刚性支出,并呈现类似通胀的上行趋势。 (原因) 业内认为,Token需求快速走高主要由三上推动。 一是应用从试用走向规模化生产。过去,大模型多用于问答、检索等轻量场景;如今,智能体逐步进入客服、营销、研发、运营、数据分析等核心流程——任务链更长、交互更频繁——单次任务的Token消耗明显高于普通对话。部分复杂推理或多轮协作的Token消耗可达到常规对话的数倍甚至十余倍,叠加企业级并发调用后,整体消耗迅速放大。 二是多模态生成带来新增量。视频生成、图像生成、长文本结构化等业务对算力与带宽要求更高,Token计费多模态链路中更容易被放大。公开定价显示,生成类能力往往呈现“时长越长、分辨率越高、成本上升越快”的特征,若缺少治理手段,企业上线后容易出现预算偏离。 三是供需与供应链成本共同作用。在全球AI需求持续扩张的背景下,高端算力供给仍偏紧,芯片、服务器、能耗与机房等综合成本对云端定价形成支撑。作为基础要素,算力价格波动会沿平台服务、模型推理、应用调用逐级传导,最终体现在以Token为核心的计费体系中。 (影响) Token通胀的影响正从技术侧外溢到经营侧,主要体现在三上。 其一,企业预算与财务核算方式需要调整。过去IT成本更多按机器、带宽、存储或项目制核算;进入大模型时代,成本核心变量变为调用量、上下文长度、推理复杂度与生成质量,传统预算口径难以准确对应真实消耗,容易出现“业务增长与成本不同步”。 其二,行业竞争逻辑发生变化。Token效率将成为新的竞争维度:在实现同等业务效果的前提下,谁能用更少的Token、更低的延迟完成任务,谁就拥有更强的成本优势与更高的复制能力。模型压缩、推理优化,以及工程侧的缓存与路由等能力,都会转化为可量化的商业价值。 其三,全球化竞争更加速。有研究观察到,在第三方接口聚合平台上,中国模型的调用量增长明显。跨境使用规模扩大意味着国内厂商在产品表现与成本控制上要接受更高标准的检验,同时也带来出海与生态扩张的机会。 (对策) 面对Token通胀常态化,业内建议企业与云服务商从“算力—模型—工程—治理”全链条入手,提高单位Token的产出效率。 一是建立Token预算与治理体系。企业应将Token纳入经营指标,按业务线、场景、模型、团队分摊核算,形成可观测、可追溯、可预警的成本看板,并设置调用配额、异常告警与审批流程,避免无序试错导致成本失控。 二是推进模型与推理优化。通过蒸馏、量化、裁剪、推理加速与动态路由等手段,在保证效果的同时降低Token消耗;工程侧可结合缓存、检索增强、提示词模板化与上下文裁剪,减少冗余输入输出;对高频任务采用小模型或专用模型分流,把大模型能力用在关键环节。 三是优化采购与部署策略。对稳定、高频、可预测的推理负载,可综合评估自建与云上弹性方案;对峰值明显的业务,结合按需与预留实例降低成本波动。签订服务协议时,应重点关注计费口径、峰值策略、限流机制与成本上限条款,提高预算确定性。 四是推动行业协同与标准化。随着Token逐渐成为事实上的“算力货币”,需要更透明、统一的计量与披露机制,便于企业横向比较不同模型与服务的成本效率,减少信息不对称带来的决策偏差。 (前景) 多家机构预测,未来数年推理Token消耗仍将保持较快增长。随着智能体进一步嵌入企业流程、多模态内容生产常态化,以及端云协同带来调用频次提升,Token需求扩张短期内难以逆转。同时,算力供给扩张、芯片迭代与推理优化将共同影响单位成本,价格可能呈现“整体上行与结构性下降并存”的局面:高质量、低时延、强可靠的服务仍具溢价空间,而技术迭代带来的效率提升将推动部分场景的边际成本下降。可以预期,“用Token精细化管理AI”将成为企业数字化转型的必修课。
由Token通胀引发的算力变局,正在重塑数字时代的成本与价值尺度。当技术消耗逐步接近水电等基础要素的计量逻辑,如何在创新投入与成本效率之间取得平衡,将成为数字化参与者绕不开的问题。过往经验表明,技术定价体系的重构往往会推动产业效率提升,并催生新的业务形态——这也可能成为数字经济迈向高质量发展的关键节点。