未来几年ai 服务器的事儿

各位，咱们聊聊未来几年AI服务器的事儿。TrendForce集邦咨询刚发布了一份报告，说是到了2030年，专门为AI设计的ASIC芯片在所有服务器里的比例，估计能涨到近40%。你看现在的情况，像Amazon这些大云计算服务商CSP，都开始自己研发芯片了，这个趋势还在扩大。为了守住地盘，NVIDIA这回在GTC 2026上改了个策略，不只是盯着训练那一块了，开始重点把推理应用落地。他们打算用GPU、CPU还有LPU这些产品线一起上，去满足不同的训练和推理需求，顺便还推了个叫Rack整合的方案，把供应链带起来。按照集邦的预测，随着Google、Amazon带头搞自研芯片，ASIC服务器的出货量会跟着水涨船高。他们估计到了2026年，这比例是27.8%，到了2030年就能接近40%。为了稳住局面，NVIDIA出了好几招。比如把CPU和GPU整合在一起的GB300、VR200柜子，说是特别适合AI推理用。特别是那个Vera Rubin系统，说穿了就是高度垂直整合的一套设备，里面有七块芯片还有五个柜子。看供应链的进度，2026年第二季内存厂能给GPU提供HBM4了，这样第三季前后就能慢慢出货Rubin芯片。至于GB300和VR200的柜子啥时候量产，GB300已经在2025年第四季把GB200给取代了，到2026年出货量估计能占到80%。VR200可能要等到第三季度末才有货，具体怎么卖还得看那些ODM厂商的进度。现在AI技术也在变呢，从生成模型变成代理模型时代了。解码Token这个步骤特别慢还占带宽。为了让推理快起来，NVIDIA把Groq团队的技术弄来了，推出了个低延迟的Groq 3 LPU。这玩意儿一颗芯里面有500MB SRAM，一个机柜凑起来能有128GB。不过这也有个问题：Groq的存储器容量实在装不下Vera Rubin那么大的参数和KV Cache。为了解决这个问题，NVIDIA在GTC上提了个新招数——“解耦合推理”。他们弄了个叫Dynamo的AI工厂系统把流水线拆开了看：像处理代理AI那种需要算很多数学题还得存KV Cache的Pre-fill和Attention阶段，就交给Vera Rubin这种吞吐量大、存得下东西的家伙去干；至于解码Token这种对延迟很敏感的活儿，就直接扔到扩充了存储器的LPU柜子上去跑。在供应链这块儿的消息也不少：第三代Groq LP30芯片找了三星代工已经开始大规模生产了，预计2026年下半年就能出货。他们还计划在下代Feynman架构里搞个更厉害的LP40芯片出来。