最近,云天励飞技术股份有限公司的CEO陈宁博士公布了一项重要的战略,主要是要把AI的推理成本给降下来,让大家更容易用上这项技术。AI技术现在已经渗透到各个行业了,但是如果没有足够的算力支持,大模型的应用就很难普及。云天励飞打算在大算力芯片尤其是推理芯片这块发力,通过底层硬件创新来驱动AI应用降低成本,提高效率。 李爱军是公司的CTO,他详细解释了这个战略背后的技术思路。云天励飞打算研发两种不同的芯片,一种叫做P芯片(Prefill),用来处理预填充阶段的任务,追求高算力;另一种叫D芯片(Decode),针对解码生成阶段进行优化,满足高带宽和低延迟的需求。这两种芯片在超节点集群里可以灵活组合,应对不同的工作负载。 云天励飞给这个大算力芯片战略定了一个很具体的目标:通过技术创新把百万Tokens的推理成本压低。公司给了自己一个任务,要在未来三年内把这个成本降低到百万Tokens一分钱甚至零点一分钱的量级。这个目标如果实现了,就能为大规模高频次的AI应用扫清成本障碍。 李爱军还提到他们有一个“PD分离”的系统架构思想。P芯片处理计算密集型的预填充任务,D芯片则处理访存密集型的解码生成任务。这种分离设计可以更好地满足不同阶段的需求。公司计划今年推出第一代超节点P芯片,明年研发第一代超节点D芯片,到2028年再推出性能更强的第二代D芯片。 为了支撑这些产品的开发,云天励飞研发了自主的GPNPU架构。这个架构不仅是处理器设计,还考虑了大模型推理系统级优化。它兼容主流编程模型如CUDA等主流编程模型,给开发者降低了使用门槛。他们还注重提升能效比和带宽、降低访问延迟。GPNPU还采用了“算力积木”式可扩展设计,这样可以灵活扩展算力规模。 这次发布的战略不仅是云天励飞自己的发展规划,也反映了中国人工智能产业正把更多注意力放在底层算力基础设施上。中国在应用场景多样性、基础设施规模还有开源模型生态方面有独特优势,这些都给他们提供了很多机会。如果他们能实现“推理超车”,并把成本降下来,那对各行各业智能化转型会有很大帮助。 不过从蓝图到现实还有很多挑战需要克服。这个战略的成败还得看市场和时间的考验。不过不管怎样,这个方向符合了技术发展和产业升级的长远期待。