英伟达CEO黄仁勋在GTC大会宣布：词元技术成人工智能发展新基石

问题—— 随着大模型训练与推理走向规模化应用，算力供给、成本控制和能效约束成为产业绕不开的现实问题；企业评估算力不再只看“每秒浮点运算”，而是更关注与业务产出直接对应的的单位成本，尤其是模型生成与理解中最基础的“词元”处理成本。在算力需求持续上升的情况下，如何实现成本可承受、规模可扩展、交付可落地的部署，成为云计算平台、数据中心运营方及行业用户的共同关注点。原因—— 在17日开幕的GPU技术大会上，黄仁勋在回顾CUDA诞生二十周年时表示，CUDA推动了通用GPU计算生态的形成，使GPU从图形渲染走向通用并行计算，并成为当下大模型计算的重要基础设施之一。他将CUDA比作驱动加速计算的“核心飞轮”，认为通过软硬件协同、库与工具链的持续迭代，加速计算正以工程化创新抵消制程缩小带来的性能增益放缓，显示出“以系统创新对冲摩尔定律放缓”的趋势。黄仁勋同时指出，英伟达正以“算法平台公司”的定位参与云端与企业级计算栈建设，并通过面向数据处理与检索的诸多加速库进入更多业务环节。其中，cuDF面向结构化数据处理，cuVS用于提升非结构化数据的特征提取与向量检索效率。大会引用部分企业实践称，这类加速库有助于压缩计算成本、缩短数据分析周期，从而加快业务迭代。影响—— 业内人士认为，把“词元成本”作为关键指标，意味着AI应用竞争焦点正从单纯追求模型参数规模，转向对“单位产出成本、端到端吞吐、工程可维护性”等综合能力的比拼。对企业而言，词元成本下降会直接扩大可用场景：其一，在同等预算下，交互式服务可覆盖更大用户规模；其二，数据分析、内容生成、检索问答等工作流可更高频运行；其三，对中小企业和传统行业来说，部署门槛有望降低，从“试点”走向更常态化的使用。，算力基础设施的布局也可能随之调整。超大规模企业仍将是GPU需求的重要来源，云计算平台与数据中心对高密度计算、网络互联与存储带宽提出更高要求；而在企业、机器人、游戏与科研计算等领域，面向特定任务优化的工作站与边缘设备需求也在增加。大会现场展示的开源项目OpenClaw及相关“快速搭建”活动，聚焦在不泄露个人隐私的前提下部署“始终在线”的本地专属助手，反映出“本地化、可控性、低时延”的应用方向正获得更多关注。对策—— 从产业落地看，降低词元成本并非仅靠硬件升级即可实现，而需要“数据—算法—系统—运维”的一体化优化：其一，完善加速库与开发工具链，提高数据清洗、特征提取、向量检索等环节的吞吐，减少模型前后处理的隐性开销；其二，在云端与本地之间合理分工，针对隐私敏感、时延敏感业务探索本地部署或混合部署；其三，推动标准化接口与开源生态建设，降低迁移与二次开发成本，避免形成新的“算力孤岛”；其四，加强能效管理与资源调度，降低峰值功耗与散热压力，以适配数据中心扩建与绿色转型需求。前景—— 业内判断，未来一段时间，加速计算的竞争将从单点性能延伸到系统级能力，包括互联带宽、存储体系、软件栈成熟度以及面向行业的解决方案交付能力。词元成本也有望成为云服务定价、企业采购评估乃至应用体验对比的重要参照。同时，随着各国对数据安全、隐私保护与关键基础设施韧性的要求趋严，本地化与可控化部署将与云端规模化形成互补，推动更多“端—边—云”协同的工程实践落地。

CUDA二十年的发展，见证了GPU计算从专业领域走向更广泛应用的过程。在生成式人工智能加速普及的背景下，词元成本的优化正成为影响AI产业竞争的重要变量。英伟达通过持续的技术迭代与生态布局，既巩固了自身优势，也为AI应用扩展提供了算力支撑。面向未来，如何更降低计算成本、提升效率，仍将是行业共同要解决的问题，而英伟达的探索为此方向提供了可参考的路径。