下月的gtc 大会上我们就能看到黄仁勋从口袋里掏出来的到底是什么

黄仁勋手里那张被称作"世界从未见过"的牌,下个月就要在GTC大会上亮出来了。他要把Feynman架构和台积电A16工艺拼在一起,想用1.6nm的晶体管密度加上Groq的LPU异构设计,把AI推理的成本公式给重新算一遍。要是这次成功了,英伟达说不定又能改写行业标准,不过头顶的良率魔咒还是个大问题。 其实这次转型挺特别,以前大家都在拼算力谁更大,现在英伟达是想把重心转到推理上来。OpenAI都跑去采购了,说明市场更想要那种能快速响应查询的引擎,而不是只盯着浮点运算的怪物。Groq的技术要是真能进英伟达的生态系统,那价值重构可就开始了。就像当年CUDA一样,英伟达可能又在给推理时代建新标准了。 台积电的A16工艺可不是闹着玩的。跟现在的5nm比,1.6nm能在同样面积下塞更多计算单元。这对处理海量参数的任务特别管用。再配上低电压特性,每瓦特性能可能能创个新纪录。不过代价也不小,这种chiplet设计的良率风险很大。每一个封装环节出了岔子,整颗芯片可能就得报废。这也是为什么英伟达得提前锁定台积电的产能,毕竟在这个节点上,每片晶圆都是战略资源。 性能飞跃的另一面就是良率魔咒悬在头顶。台积电的生产线还没完全成熟,初期的供货量估计很难满足市场需求。要是供给跟不上需求,价格可能就下不来了。以前大家都爱拿摩尔定律说事,可现在英伟达的架构迭代速度已经超过定律了。 从Hopper到Blackwell再到Feynman,英伟达的架构跑得太快了。这次的Feynman架构给出了一个激进的方案:通过3D堆叠把SRAM和LPU单元混在一起用。这种思路跟AMD的X3D处理器有点像,但目标更专业是专门做AI推理的。 传统GPU的显存架构在处理大模型时老是在做数据搬运工。而Feynman架构给出的解决方案是通过3D堆叠技术把SRAM与LPU单元进行混合键合。这种设计思路与AMD的X3D处理器异曲同工,但它瞄准的是更专业的AI推理场景。 英伟达把这次GTC大会变成了一场关于算力极限的狂欢。当台积电A16工艺遇上Feynman架构,这块芯片就能用1.6nm的晶体管密度突破AI推理的延迟瓶颈。这也能解释为什么英伟达要把芯片设计成chiplet的样子。 不过这次豪赌有风险也有收益。Feynman架构的1.6nm要是成了,英伟达就能再次拉开跟追赶者的身位;要是良率问题一直解决不了,这场革命可能就成了纸上谈兵。下月的GTC大会上我们就能看到黄仁勋从口袋里掏出来的到底是什么——要么是颠覆行业的核弹头,要么还是需要打磨的半成品。