周鸿祎解读AI算力成本难题：Token计费难以复刻传统流量包月“无限量”

问题——大模型进入规模化应用后，“用得起、用得多”成了用户最关心的问题。生成式服务逐步嵌入办公、搜索、客服、编程和内容生产等场景，越来越多用户期待像移动互联网时代那样，以固定费用获得接近不限量的使用额度。Token计费会不会成为普惠应用的“门槛”，因此行业活动中引发讨论。原因——资源消耗方式不同，决定了成本曲线不同。周鸿祎在会上表示，传统互联网的主要消耗集中在网络传输和存储。经过多年基础设施投入，光纤、带宽、机房形成规模效应，单位流量的边际成本持续下降，“包月”“不限量”等产品才具备商业可行性。相比之下，大模型的推理与生成不是简单的“传输数据”，而是持续占用计算资源：一次对话、一次代码生成、一次多轮推理都要调用GPU/加速卡集群，同时带来电力、散热和运维成本，并受模型规模、上下文长度和任务复杂度影响。也就是说，用得越多、任务越重，资源消耗越高，成本难以像流量那样被不断“摊薄”。周鸿祎深入强调，Token是衡量大模型服务消耗的计量单位，其价格会受到算力供给、模型能力和部署方式等因素约束，短期内很难出现“越用越便宜直至无限”的趋势。当需求在短时间内集中爆发，总成本会同步上升，平台还要承受算力调度、峰值扩容和服务稳定性的压力。这种供需关系决定了，“无限量”更容易引发资源挤兑，进而影响服务质量。影响——计费争议折射出产业化的深层矛盾。一上，Token计费能让成本与使用强度直接对应，促使企业和用户更理性地调用模型能力，减少无效生成和过度请求；另一方面，如果价格体系不透明，或缺少覆盖不同场景的产品组合，可能抬高中小企业与个人用户的试用门槛，影响应用创新的广度。对提供方而言，若以低价甚至“无限量”争夺用户，算力与电力约束下容易形成“高增长、低毛利、重投入”的运营结构，一旦外部环境变化或融资收紧，服务的可持续性将面临压力。对策——推动更精细的供给与计费体系。业内人士认为，要兼顾“用得起”和“可持续”，需要从技术、产品和治理多上推进：其一，提高算力利用效率，通过模型压缩、推理加速、缓存复用、混合精度和更优调度策略降低单次调用成本；其二，优化产品分层，针对轻量问答、专业写作、代码开发、企业知识库等场景提供差异化套餐，完善“按需付费、阶梯定价、封顶保护”等机制，降低用户对费用不确定性的担忧；其三，推进算力基础设施协同建设，完善数据中心绿色用能、峰谷电价等配套，降低电力与散热带来的系统性成本；其四，强化透明计量与清晰提示，在接口层提供Token消耗预估与费用反馈，引导更高质量的人机交互和更高效的提示词设计。前景——Token成本会随技术进步下降，但“无限量”仍绕不开物理与经济约束。业界普遍预期，随着国产算力生态完善、模型架构迭代、推理效率提升和供给规模扩大，单位Token成本有望阶段性下降，面向大众的低门槛产品也会更多。但从产业规律看，复杂任务对算力的占用具有刚性，“强能力、长上下文、多模态、低延迟”往往意味着更高资源消耗。更现实的方向，是在可控成本下提升可用性：通过更精准的任务分流，让简单问题由轻量模型处理、复杂问题由高阶模型接管；通过端侧与云侧协同，将部分计算转移到本地设备；通过企业私有化部署与行业模型，减少通用大模型在特定场景中的冗余消耗。

Token不是简单的“文字计数器”，而是对算力、能源与工程能力的综合映射；大模型要走向普惠，既需要技术进步带来成本下降，也需要更科学的定价和更精细的资源治理，在可负担与可持续之间找到平衡。围绕Token成本的讨论，也在提醒行业从“流量思维”转向“算力思维”，以更务实的方式推动人工智能服务更稳健、更广泛地落地应用。