英伟达CEO黄仁勋在GTC大会宣布:词元技术成人工智能发展新基石

问题—— 随着大模型训练与推理走向规模化应用,算力供给、成本控制和能效约束成为产业绕不开的现实问题;企业评估算力不再只看“每秒浮点运算”,而是更关注与业务产出直接对应的的单位成本,尤其是模型生成与理解中最基础的“词元”处理成本。在算力需求持续上升的情况下,如何实现成本可承受、规模可扩展、交付可落地的部署,成为云计算平台、数据中心运营方及行业用户的共同关注点。 原因—— 在17日开幕的GPU技术大会上,黄仁勋在回顾CUDA诞生二十周年时表示,CUDA推动了通用GPU计算生态的形成,使GPU从图形渲染走向通用并行计算,并成为当下大模型计算的重要基础设施之一。他将CUDA比作驱动加速计算的“核心飞轮”,认为通过软硬件协同、库与工具链的持续迭代,加速计算正以工程化创新抵消制程缩小带来的性能增益放缓,显示出“以系统创新对冲摩尔定律放缓”的趋势。 黄仁勋同时指出,英伟达正以“算法平台公司”的定位参与云端与企业级计算栈建设,并通过面向数据处理与检索的诸多加速库进入更多业务环节。其中,cuDF面向结构化数据处理,cuVS用于提升非结构化数据的特征提取与向量检索效率。大会引用部分企业实践称,这类加速库有助于压缩计算成本、缩短数据分析周期,从而加快业务迭代。 影响—— 业内人士认为,把“词元成本”作为关键指标,意味着AI应用竞争焦点正从单纯追求模型参数规模,转向对“单位产出成本、端到端吞吐、工程可维护性”等综合能力的比拼。对企业而言,词元成本下降会直接扩大可用场景:其一,在同等预算下,交互式服务可覆盖更大用户规模;其二,数据分析、内容生成、检索问答等工作流可更高频运行;其三,对中小企业和传统行业来说,部署门槛有望降低,从“试点”走向更常态化的使用。 ,算力基础设施的布局也可能随之调整。超大规模企业仍将是GPU需求的重要来源,云计算平台与数据中心对高密度计算、网络互联与存储带宽提出更高要求;而在企业、机器人、游戏与科研计算等领域,面向特定任务优化的工作站与边缘设备需求也在增加。大会现场展示的开源项目OpenClaw及相关“快速搭建”活动,聚焦在不泄露个人隐私的前提下部署“始终在线”的本地专属助手,反映出“本地化、可控性、低时延”的应用方向正获得更多关注。 对策—— 从产业落地看,降低词元成本并非仅靠硬件升级即可实现,而需要“数据—算法—系统—运维”的一体化优化:其一,完善加速库与开发工具链,提高数据清洗、特征提取、向量检索等环节的吞吐,减少模型前后处理的隐性开销;其二,在云端与本地之间合理分工,针对隐私敏感、时延敏感业务探索本地部署或混合部署;其三,推动标准化接口与开源生态建设,降低迁移与二次开发成本,避免形成新的“算力孤岛”;其四,加强能效管理与资源调度,降低峰值功耗与散热压力,以适配数据中心扩建与绿色转型需求。 前景—— 业内判断,未来一段时间,加速计算的竞争将从单点性能延伸到系统级能力,包括互联带宽、存储体系、软件栈成熟度以及面向行业的解决方案交付能力。词元成本也有望成为云服务定价、企业采购评估乃至应用体验对比的重要参照。同时,随着各国对数据安全、隐私保护与关键基础设施韧性的要求趋严,本地化与可控化部署将与云端规模化形成互补,推动更多“端—边—云”协同的工程实践落地。

CUDA二十年的发展,见证了GPU计算从专业领域走向更广泛应用的过程。在生成式人工智能加速普及的背景下,词元成本的优化正成为影响AI产业竞争的重要变量。英伟达通过持续的技术迭代与生态布局,既巩固了自身优势,也为AI应用扩展提供了算力支撑。面向未来,如何更降低计算成本、提升效率,仍将是行业共同要解决的问题,而英伟达的探索为此方向提供了可参考的路径。