各位,咱们聊聊未来几年AI服务器的事儿。TrendForce集邦咨询刚发布了一份报告,说是到了2030年,专门为AI设计的ASIC芯片在所有服务器里的比例,估计能涨到近40%。你看现在的情况,像Amazon这些大云计算服务商CSP,都开始自己研发芯片了,这个趋势还在扩大。 为了守住地盘,NVIDIA这回在GTC 2026上改了个策略,不只是盯着训练那一块了,开始重点把推理应用落地。他们打算用GPU、CPU还有LPU这些产品线一起上,去满足不同的训练和推理需求,顺便还推了个叫Rack整合的方案,把供应链带起来。 按照集邦的预测,随着Google、Amazon带头搞自研芯片,ASIC服务器的出货量会跟着水涨船高。他们估计到了2026年,这比例是27.8%,到了2030年就能接近40%。 为了稳住局面,NVIDIA出了好几招。比如把CPU和GPU整合在一起的GB300、VR200柜子,说是特别适合AI推理用。特别是那个Vera Rubin系统,说穿了就是高度垂直整合的一套设备,里面有七块芯片还有五个柜子。看供应链的进度,2026年第二季内存厂能给GPU提供HBM4了,这样第三季前后就能慢慢出货Rubin芯片。 至于GB300和VR200的柜子啥时候量产,GB300已经在2025年第四季把GB200给取代了,到2026年出货量估计能占到80%。VR200可能要等到第三季度末才有货,具体怎么卖还得看那些ODM厂商的进度。 现在AI技术也在变呢,从生成模型变成代理模型时代了。解码Token这个步骤特别慢还占带宽。为了让推理快起来,NVIDIA把Groq团队的技术弄来了,推出了个低延迟的Groq 3 LPU。这玩意儿一颗芯里面有500MB SRAM,一个机柜凑起来能有128GB。 不过这也有个问题:Groq的存储器容量实在装不下Vera Rubin那么大的参数和KV Cache。为了解决这个问题,NVIDIA在GTC上提了个新招数——“解耦合推理”。他们弄了个叫Dynamo的AI工厂系统把流水线拆开了看:像处理代理AI那种需要算很多数学题还得存KV Cache的Pre-fill和Attention阶段,就交给Vera Rubin这种吞吐量大、存得下东西的家伙去干;至于解码Token这种对延迟很敏感的活儿,就直接扔到扩充了存储器的LPU柜子上去跑。 在供应链这块儿的消息也不少:第三代Groq LP30芯片找了三星代工已经开始大规模生产了,预计2026年下半年就能出货。他们还计划在下代Feynman架构里搞个更厉害的LP40芯片出来。