问题——大模型进入规模化应用后,“用得起、用得多”成了用户最关心的问题。生成式服务逐步嵌入办公、搜索、客服、编程和内容生产等场景,越来越多用户期待像移动互联网时代那样,以固定费用获得接近不限量的使用额度。Token计费会不会成为普惠应用的“门槛”,因此行业活动中引发讨论。 原因——资源消耗方式不同,决定了成本曲线不同。周鸿祎在会上表示,传统互联网的主要消耗集中在网络传输和存储。经过多年基础设施投入,光纤、带宽、机房形成规模效应,单位流量的边际成本持续下降,“包月”“不限量”等产品才具备商业可行性。相比之下,大模型的推理与生成不是简单的“传输数据”,而是持续占用计算资源:一次对话、一次代码生成、一次多轮推理都要调用GPU/加速卡集群,同时带来电力、散热和运维成本,并受模型规模、上下文长度和任务复杂度影响。也就是说,用得越多、任务越重,资源消耗越高,成本难以像流量那样被不断“摊薄”。 周鸿祎深入强调,Token是衡量大模型服务消耗的计量单位,其价格会受到算力供给、模型能力和部署方式等因素约束,短期内很难出现“越用越便宜直至无限”的趋势。当需求在短时间内集中爆发,总成本会同步上升,平台还要承受算力调度、峰值扩容和服务稳定性的压力。这种供需关系决定了,“无限量”更容易引发资源挤兑,进而影响服务质量。 影响——计费争议折射出产业化的深层矛盾。一上,Token计费能让成本与使用强度直接对应,促使企业和用户更理性地调用模型能力,减少无效生成和过度请求;另一方面,如果价格体系不透明,或缺少覆盖不同场景的产品组合,可能抬高中小企业与个人用户的试用门槛,影响应用创新的广度。对提供方而言,若以低价甚至“无限量”争夺用户,算力与电力约束下容易形成“高增长、低毛利、重投入”的运营结构,一旦外部环境变化或融资收紧,服务的可持续性将面临压力。 对策——推动更精细的供给与计费体系。业内人士认为,要兼顾“用得起”和“可持续”,需要从技术、产品和治理多上推进:其一,提高算力利用效率,通过模型压缩、推理加速、缓存复用、混合精度和更优调度策略降低单次调用成本;其二,优化产品分层,针对轻量问答、专业写作、代码开发、企业知识库等场景提供差异化套餐,完善“按需付费、阶梯定价、封顶保护”等机制,降低用户对费用不确定性的担忧;其三,推进算力基础设施协同建设,完善数据中心绿色用能、峰谷电价等配套,降低电力与散热带来的系统性成本;其四,强化透明计量与清晰提示,在接口层提供Token消耗预估与费用反馈,引导更高质量的人机交互和更高效的提示词设计。 前景——Token成本会随技术进步下降,但“无限量”仍绕不开物理与经济约束。业界普遍预期,随着国产算力生态完善、模型架构迭代、推理效率提升和供给规模扩大,单位Token成本有望阶段性下降,面向大众的低门槛产品也会更多。但从产业规律看,复杂任务对算力的占用具有刚性,“强能力、长上下文、多模态、低延迟”往往意味着更高资源消耗。更现实的方向,是在可控成本下提升可用性:通过更精准的任务分流,让简单问题由轻量模型处理、复杂问题由高阶模型接管;通过端侧与云侧协同,将部分计算转移到本地设备;通过企业私有化部署与行业模型,减少通用大模型在特定场景中的冗余消耗。
Token不是简单的“文字计数器”,而是对算力、能源与工程能力的综合映射;大模型要走向普惠,既需要技术进步带来成本下降,也需要更科学的定价和更精细的资源治理,在可负担与可持续之间找到平衡。围绕Token成本的讨论,也在提醒行业从“流量思维”转向“算力思维”,以更务实的方式推动人工智能服务更稳健、更广泛地落地应用。