千问前技术头头头林俊旸：智能体式的思考和推理式的不太一样

千问前技术头头林俊旸刚辞了职，3月26日晚上就在社交平台写了一大篇文章，好好聊了聊自己对大模型未来的看法。他说，过去两年咱们对大模型的看法和要求都变了。OpenAI的o1就让人看到，“思考”这本事是能练出来的。DeepSeek-R1接着干，证明了推理式的后续训练不光能在实验室里弄，还能拿到外头去复制扩展。这一步挺重要，但等到2025年上半年，大家的目光又回到了“推理式思考”本身，琢磨着怎么让模型多想一想。现在是时候问下一个问题了。他觉得以后的方向应该是智能体式的思考，就是为了行动而思考，跟环境玩的时候，还得听外面的反馈来调整计划。他提了一个大家伙事儿，说是2025年初千问团队有个野心，想做个统一的系统，把思考模式和指令模式合二为一。想让模型能自己选什么时候直接答、什么时候稍作思考、什么时候为了难题多花算力。听着挺好的。但合并说起来容易做起来难。最麻烦的是数据。大家光想着模型那边能不能兼容，其实这两个模式的数据分布和目标根本不一样。团队在弄这个合并的时候平衡不太好，结果就是两边都不咋样：思考模式乱七八糟不够果断，指令模式又不清楚还更费钱。所以分开搞在实践里还是挺香的。2025年下半年Qwen就出了独立的Instruct和Thinking版本。不过他最后琢磨出一个道理：真正的合并得有个平滑的推理力度谱。模型自己得知道该用多大劲去想。他说推理链长不一定聪明，有时候链条越长说明它在乱花算力呢。千问的人也意识到行业在变路子，以前是训练模型的时代，现在是训练智能体的时代，就是得跟真实世界闭环互动。智能体式的思考和推理式的不太一样。推理式的就是看最后答案前想的好不好；智能体式的是看在跟环境玩的时候能不能持续往前走。核心问题也变了：不再是问模型能不能想久一点；而是问能不能用一种能撑得住有效行动的方式去想。训练的对象也变了成了整个模型加环境的系统。这时候不光是模型架构和数据重要了；环境怎么设计、rollout的基础设施、评估器稳不稳、好几个Agent怎么配合这些都进了核心圈里。“好的思考”也变了：不是最长最显眼的那条路；而是在真实约束下最能撑起行动的那条路。林俊旸预测说智能体式思考以后会是主流来源是第一财经主编彭丹和蒋黎明写的稿象象有个回馈福利活动！（大象文创袋或者背包二选一）文章分享量前五名能领奖品！