英伟达发布LPU芯片，重塑算力格局；专用加速器打开AI推理新赛道

问题——大模型推理“慢”的关键矛盾正转移随着大模型从训练走向规模化应用，行业关注点由“算得出”转向“答得快、答得稳”；在文本生成、对话检索、代码补全等场景中，用户体验往往取决于单位时间生成的Token数量以及响应时延。实践表明，推理阶段的主要掣肘并非单纯计算单元的峰值算力，而是参数、KV Cache等数据在存储层与计算层之间的搬运效率，即业内常说的“内存墙”。传统以GPU为核心的通用加速路线在面对更强的实时性需求时，需要新的架构手段来平衡吞吐、时延与成本。原因——从“绝对算力”到“数据通路”，瓶颈指向带宽与时延英伟达此次在Vera Rubin平台中引入LPU，核心指向推理阶段的数据传输效率。与以HBM为代表的堆叠DRAM方案相比，SRAM在读写时延和带宽上具备优势，更适合承担推理过程对高速缓存与快速访问的需求。英伟达披露，基于SRAM方案的LPU可提供高达150TB/s的带宽，并将系统推理吞吐从每秒约100个Token提升至1500个以上，支持“边推理边输出”的低时延交互体验。同时，英伟达对涉及的技术路径的布局并非临时起意。业内信息显示，LPU概念此前已由相关企业率先探索，英伟达2025年末完成对其关键技术与团队的整合，并在本届GTC正式产品化发布。这反映出头部厂商对推理市场的判断正在强化：推理是未来算力需求增长的主要来源，且其优化方向与训练并不完全一致，需要更细分、更专用的硬件分工。影响——异构协同将重塑数据中心算力组织方式首先，LPU的定位并非取代GPU，而是与GPU形成分工协作：GPU继续承担通用计算与大规模模型运算，LPU则更偏向对推理过程中的高频数据访问、通信与实时生成进行加速。由于SRAM容量与成本特性限制，LPU难以像HBM那样扩展到数百GB级别容量，这决定了其更适合成为“推理协处理器”，而不是独立承载超大模型的单一主力。其次，围绕推理效率的竞争将带动软硬件栈联动升级。要让推理任务“该上GPU的上GPU、该交给LPU的交给LPU”，需要在编译器、调度器、模型并行策略、缓存管理与网络通信各上同步优化，推动数据中心从单一加速卡堆叠，迈向更复杂但更高效的异构系统工程。再次，应用侧的变化将继续放大推理加速器价值。随着智能体（Agent）类应用兴起，模型不再只是“问答式”的单轮交互，而可能需要同时处理多路任务、调用工具、持续观察环境并实时输出结果。此类交互对时延抖动更敏感，对系统吞吐与稳定性要求更高，也更需要面向推理的数据通路优化。对策——算力建设应从“买得多”转向“配得准、用得好” 对云服务商与数据中心运营方而言，下一阶段的关键不只是扩容GPU数量，更要围绕业务形态进行架构匹配：对高并发、低时延的线上推理服务，优先评估带宽、时延、通信与缓存体系；对训练与离线批处理任务，则继续关注算力密度与能效比。通过异构部署与精细化调度，把不同类型芯片的优势释放到合适的工作负载中，才能在成本、能耗与体验之间取得更优平衡。对产业链而言，应加强基础软件与工程化能力建设，尤其是模型推理框架、编译优化、算子融合、缓存与并行策略等“看不见”的系统工程，避免硬件能力与业务收益之间出现断层。同时，需要关注供应链与成本结构变化，合理评估SRAM等路线在规模化部署中的综合成本、功耗与维护复杂度。前景——推理专用化与异构化或成主流方向综合来看，英伟达在继续强化GPU平台的同时推出LPU，传递出明确信号：未来大模型基础设施将更强调“训练—推理分层优化”和“异构单元协同”，以应对实时交互与智能体应用带来的新需求。短期内，LPU更可能在高价值、强实时的推理场景率先落地；中长期看，随着软件生态完善、任务调度成熟以及数据中心网络与存储体系同步演进，围绕推理的专用加速器有望成为云端算力体系的重要拼图，推动行业从“算力竞赛”转向“系统效率竞赛”。

从更大算力到更高效率，算力产业正在进入“系统工程”阶段。LPU的出现不是否定GPU价值，而是将竞争焦点从单一芯片性能扩展到内存体系、互联能力与任务分工的整体优化。谁能在真实业务中同时做好时延、吞吐与成本，谁就更可能在新一轮智能应用浪潮中占得先机。