问题——大模型推理“慢”的关键矛盾正转移 随着大模型从训练走向规模化应用,行业关注点由“算得出”转向“答得快、答得稳”;在文本生成、对话检索、代码补全等场景中,用户体验往往取决于单位时间生成的Token数量以及响应时延。实践表明,推理阶段的主要掣肘并非单纯计算单元的峰值算力,而是参数、KV Cache等数据在存储层与计算层之间的搬运效率,即业内常说的“内存墙”。传统以GPU为核心的通用加速路线在面对更强的实时性需求时,需要新的架构手段来平衡吞吐、时延与成本。 原因——从“绝对算力”到“数据通路”,瓶颈指向带宽与时延 英伟达此次在Vera Rubin平台中引入LPU,核心指向推理阶段的数据传输效率。与以HBM为代表的堆叠DRAM方案相比,SRAM在读写时延和带宽上具备优势,更适合承担推理过程对高速缓存与快速访问的需求。英伟达披露,基于SRAM方案的LPU可提供高达150TB/s的带宽,并将系统推理吞吐从每秒约100个Token提升至1500个以上,支持“边推理边输出”的低时延交互体验。 同时,英伟达对涉及的技术路径的布局并非临时起意。业内信息显示,LPU概念此前已由相关企业率先探索,英伟达2025年末完成对其关键技术与团队的整合,并在本届GTC正式产品化发布。这反映出头部厂商对推理市场的判断正在强化:推理是未来算力需求增长的主要来源,且其优化方向与训练并不完全一致,需要更细分、更专用的硬件分工。 影响——异构协同将重塑数据中心算力组织方式 首先,LPU的定位并非取代GPU,而是与GPU形成分工协作:GPU继续承担通用计算与大规模模型运算,LPU则更偏向对推理过程中的高频数据访问、通信与实时生成进行加速。由于SRAM容量与成本特性限制,LPU难以像HBM那样扩展到数百GB级别容量,这决定了其更适合成为“推理协处理器”,而不是独立承载超大模型的单一主力。 其次,围绕推理效率的竞争将带动软硬件栈联动升级。要让推理任务“该上GPU的上GPU、该交给LPU的交给LPU”,需要在编译器、调度器、模型并行策略、缓存管理与网络通信各上同步优化,推动数据中心从单一加速卡堆叠,迈向更复杂但更高效的异构系统工程。 再次,应用侧的变化将继续放大推理加速器价值。随着智能体(Agent)类应用兴起,模型不再只是“问答式”的单轮交互,而可能需要同时处理多路任务、调用工具、持续观察环境并实时输出结果。此类交互对时延抖动更敏感,对系统吞吐与稳定性要求更高,也更需要面向推理的数据通路优化。 对策——算力建设应从“买得多”转向“配得准、用得好” 对云服务商与数据中心运营方而言,下一阶段的关键不只是扩容GPU数量,更要围绕业务形态进行架构匹配:对高并发、低时延的线上推理服务,优先评估带宽、时延、通信与缓存体系;对训练与离线批处理任务,则继续关注算力密度与能效比。通过异构部署与精细化调度,把不同类型芯片的优势释放到合适的工作负载中,才能在成本、能耗与体验之间取得更优平衡。 对产业链而言,应加强基础软件与工程化能力建设,尤其是模型推理框架、编译优化、算子融合、缓存与并行策略等“看不见”的系统工程,避免硬件能力与业务收益之间出现断层。同时,需要关注供应链与成本结构变化,合理评估SRAM等路线在规模化部署中的综合成本、功耗与维护复杂度。 前景——推理专用化与异构化或成主流方向 综合来看,英伟达在继续强化GPU平台的同时推出LPU,传递出明确信号:未来大模型基础设施将更强调“训练—推理分层优化”和“异构单元协同”,以应对实时交互与智能体应用带来的新需求。短期内,LPU更可能在高价值、强实时的推理场景率先落地;中长期看,随着软件生态完善、任务调度成熟以及数据中心网络与存储体系同步演进,围绕推理的专用加速器有望成为云端算力体系的重要拼图,推动行业从“算力竞赛”转向“系统效率竞赛”。
从更大算力到更高效率,算力产业正在进入“系统工程”阶段。LPU的出现不是否定GPU价值,而是将竞争焦点从单一芯片性能扩展到内存体系、互联能力与任务分工的整体优化。谁能在真实业务中同时做好时延、吞吐与成本,谁就更可能在新一轮智能应用浪潮中占得先机。