英伟达老板黄仁勋最近聊了聊他们搞AI的打算,核心意思就是给机器装上脑子的软件,比光换硬件重要多了。在现在这个人工智能火得不行的节骨眼儿上,到底怎么搭算力的基础设施,才能让这个产业活下去,大家都挺关心。作为行业里的带头大哥,英伟达怎么想、往哪走,自然成了大家关注的焦点。 黄仁勋这次讲话不光是为了回应用户关于买显卡贵不贵的疑问,还画了一条通过软件和系统创新来赚钱的长期路线图。面对行业里那些想用便宜内存条来压低成本的做法,他直接提出了不一样的看法。他说,光卖硬件是一锤子买卖,可后面还得花一辈子去维护软件。这话其实道出了一个大道理:机器是身体,软件才是灵魂。 为了让大家的日子过得更舒坦,黄仁勋把竞争的标准换成了“能效经济”,说白了就是算一算每一瓦电或者每一美元能弄出多少个Token。这也意味着AI算力的比拼不再是比谁跑得快,而是要看谁更省电、省钱、好用。 为了在系统效率上更有优势,英伟达决定死死咬住统一的内存架构和软件栈不放。虽然一开始买个盒子可能贵点,但能避免因为架构不一样搞得软件乱七八糟没法用。统一的环境好处就是优化一次能覆盖所有机器,让整体算下来更划算。 他还特意提到了开源模型这事。现在这些开源的玩意儿已经贡献了全球大概四分之一的Token生成量,这增长速度真是出乎了大家的意料。这也把AI的应用场景一下子拓宽了,不光是大云计算中心能用,现在很多企业也能把它放在自己家的服务器上跑。 说到机器设计这块儿,他重点介绍了下一代的Vera Rubin平台。这个平台用了模块化的托盘式架构,解决了以前大家伙儿维护难的老毛病。它支持在系统不停机的情况下直接换NVLink这些关键部件,实现了“在线维护、边跑边修”,这就把机器的可用性和可靠性提上去了。 光换东西还不够,它还简化了布线设计,并且100%全液冷散热。这不仅让系统更稳当,还能把单个节点的组装时间从几小时压缩到几分钟,大大提高了干活的速度和省钱的本事。 最关键的是供电问题。现在的AI任务,尤其是推理任务,功率跳得很厉害,容易把电网震得晃悠。为了防着这些尖峰时刻不跳闸,数据中心只好留一大堆冗余电备用,结果平时的电利用率就很低。 Rubin平台在这方面下了功夫,通过精密的设计把这种瞬时的波动给“熨平”了。就算单个显卡发热量很大,对外呈现出来的负载曲线还是很平稳的。这就让运营商能更充分地利用现有的电力容量,在能源方面把整体的经济性给提上去了。 从黄仁勋的话里能听出来,现在领先的公司都把目光从单纯的芯片参数上移开了。他们开始拼整体实力:不光看硬件设计,还得看软件好不好用、系统架构优不优秀、能耗有没有效、生态能不能协同起来。 在AI从实验室走向大规模商用的过程中,搭建一个稳定、高效、可持续而且开放协作的算力平台变得越来越重要了。通过强化软件的长期价值、推动系统级的创新来解决能源和运维的老大难问题,英伟达展示了他们要给AI产业下一个阶段打下坚实基础的决心。这条路子也给全球搞AI基础设施的人提供了很有价值的参考思路。