AI工程师Manjeet Singh和Claude团队最近有了个大发现,他们居然把苹果M4芯片的神经引擎ANE给破解了。这可是个大事,意味着Mac mini这种消费级设备可以直接用来训练Transformer模型了,端侧的AI革命算是正式拉开序幕。大家以前总觉得NPU只能做推理,不能训练大模型,现在团队通过逆向工程直接深入CoreML框架内部,把ANE的算力给释放出来了。实验结果特别惊人,单层Transformer运行时峰值能效比能达到6.6TFLOPS/W,比英伟达的A100显卡都要强出80倍,比H100更是有50倍的优势。 而且这次实验还顺便把高性能计算的能耗标准给改了。训练Stories110M模型的时候,整机功耗居然控制在1瓦以内,这简直太夸张了。 这个突破最关键的是硬件操控方式的改变。团队弄了个全新的底层驱动架构,让ANE能够直接处理梯度计算和参数更新这些训练环节。实测下来,系统不光能完整跑完训练流程,迭代效率甚至能跟入门级GPU集群有一拼。对开发者来说,以前得花几万块钱买算力的钱现在花几百块就能搞定。技术圈的人都很兴奋,很多人觉得小型团队以后搞研发的路子变宽了。 有人开玩笑说,你桌上的MacBook不再是个打字的机器了,它正在变成一个会自己思考的数字伙伴。 现在虽然内存带宽和多节点协同还得再改进一下,不过团队已经开放了部分代码库。这种开源模式正在吸引全世界的人来帮忙优化。专家预测,只要驱动层继续改进,M4芯片的算力利用率可能在半年内就能提升300%。这场由消费电子产品引发的AI训练革命,估计才刚刚开始呢。