说到大模型,这可是现在AI圈里最火热的话题了。中国的人工智能要想在国际上有话语权,就得把自己的技术路线理清楚,还得去构建自己的生态圈。月之暗面的创始人杨植麟最近就在论坛上聊了他对这事儿的看法。 他说,从2019年开始,大家都在验证一个叫“扩展定律”的说法,就是把算力和数据量扩大,模型参数增多,性能就能上去。这全靠Transformer这种主流架构撑着,它能处理很长的文本和复杂逻辑。有了这基础,像编程、深度推理这些活儿才好干。 杨植麟觉得,既然规律找到了,就得想办法让模型学得更有效率,记性更好。他们团队搞出来两个大杀器:一个是自研的MUON二阶优化器,比用了十年的Adam优化器强多了,同样的数据量能跑出更好的效果,给训练省了不少资源。 另一个是Kimi Linear注意力架构,这玩意儿专门解决超长文本带来的记忆模糊和逻辑混乱。给百万字的大长篇做任务的时候,速度快还准确。更厉害的是他们在训练万亿参数的K2模型时,把“Logit爆炸”这种要命的问题给搞定了。 凭借这套技术,Kimi K2成了国内头一个能执行复杂任务的Agent模型,好几个指标都达到了国际先进水平。 杨植麟还提到一个现象:有些中国团队弄出来的开源模型和评测方法,现在成了全世界评估性能的标准。这说明我们不光会用技术做产品,还能在定规则、做标准上插一手。 他强调,技术竞争的下一步就是拼规则和生态。中国的人工智能不能光是跟着别人走,得努力去定义技术。 对于大家担心的AI安全和伦理问题,杨植麟也给出了答案。他说技术肯定会带来风险,但发展才是解决问题的根本。AI是我们破解疾病、能源问题还有宇宙奥秘的重要工具。只要我们有健全的评估体系就能继续前进。 这次杨植麟的演讲算是把大模型的发展脉络给捋顺了:从研究扩展定律到解决训练难题,再到参与规则制定。中国企业正在从技术应用的追随者变成底层创新的领跑者。 像Kimi这种规划以后的路数,不光是企业自己的长征,也是中国积极参与全球科技治理的一个缩影。未来怎么平衡速度和安全?怎么把技术优势变成产业优势和标准影响力?这还得大家一起想办法。