问题——从“内部推演”走向“外部交互”,能力衡量标准正在变化; 3月26日,前通义千问技术负责人林俊旸在社交平台发表长文,讨论大模型能力演进方向。在他看来,近年来以推理能力提升为主线的技术路径,已将行业注意力集中在“模型能否在给出答案前完成更高质量的内部推演”,例如数学、代码与各类基准测试表现。有关实践证明,在反馈信号相对稳定、基础设施充足的条件下,强化学习等方法能带来推理能力的跃升。但他强调,下一步更值得追问的是:系统能否在与真实环境交互中持续推进任务,形成可执行、可修正、可延展的行动链条,即所谓“智能体式思考”。 原因——需求侧牵引叠加技术侧瓶颈,推动从“会答题”到“能办事”的迁移。 从产业应用看,企业对大模型的期待正从单点问答扩展至流程化、自动化的任务完成:检索信息、调用工具、执行操作、验证结果并迭代方案。这类任务往往包含不完整信息与噪声反馈,且需要在多轮交互中保持目标一致与策略连贯。林俊旸指出,推理模型擅长在相对封闭的语境中“把题做对”,而智能体必须面对更现实的决策问题:何时结束思考并启动行动、如何选择与排序工具、行动失败后如何重规划、如何在长期交互中保持记忆与一致性。由此,能力衡量不再仅看“想得多深”,更看“做得成不成”。 影响——数据与产品形态的“天然互斥”凸显,统一模型的工程代价上升。 林俊旸在文中复盘了将“指令模型”与“思考模型”统一的探索。他认为,面向规模化业务的指令模型强调简洁、格式合规与低延迟,以支撑高吞吐场景;而强调推理的模型通常需要更长的生成过程、更复杂的中间结构与多路径探索,成本更高但正确率可能更优。两类行为特征若在数据层面简单混合、缺乏精细筛选,容易出现“两头不讨好”:推理过程变得冗杂且决策力下降,指令输出不够干脆导致可靠性与成本不满足商业化要求。基于此,他提到相关版本在产品策略上采取了区分化发布:分别提供偏指令与偏推理的版本,以适配不同需求。其判断是,真正成功的统一并非依靠简单的模式开关,而应形成“推理力度”的连续可控光谱,并能结合任务难度自动调节计算资源投入。 对策——智能体转型的核心抓手,从“建模型”扩展到“建系统、建环境、建数据”。 林俊旸认为,迈向智能体式思考,将带来至少三个层面的结构性挑战。 一是基础设施重构。智能体训练与推理不再是单一模型的输入输出,而需要嵌入一个包含工具服务、浏览器、终端、搜索、模拟器、沙盒、接口层、记忆系统与编排框架等在内的集成体系。训练与推理若不能更彻底解耦,采样与执行吞吐会明显下降,从而制约迭代速度。这意味着竞争从算法层面继续外溢到系统工程能力与工程组织能力。 二是“环境质量”成为新焦点。在监督微调阶段,行业主要追求数据多样性;在智能体阶段,决定上限的可能是交互环境的稳定性、真实性、状态丰富度以及对“投机取巧”的防范能力。环境越贴近真实业务与真实世界约束,越能产生可复用的反馈信号与更可靠的策略学习路径。 三是数据体系需要重建。智能体学习所需的不仅是“答案”,还包括行动序列、工具调用轨迹、失败案例与纠错路径,以及多轮交互中的状态变化记录。如何以可控成本获取高质量轨迹数据、如何避免模型在环境中形成不符合目标的策略、如何在安全边界内放大试错规模,都是训练范式变化带来的新问题。 前景——从“推理能力竞赛”走向“任务完成能力竞赛”,行业或将进入体系化竞争阶段。 综合业内发展趋势看,推理能力的提升仍将是基础,但仅靠更长的“内部独白”难以覆盖复杂任务的真实约束。未来更具竞争力的系统,应具备检索、执行、检查、修订、回滚与再规划等闭环能力,并在成本、速度与可靠性之间实现更细颗粒度的平衡。可以预期,围绕智能体的评测标准、工程基座、环境平台与数据供给将加速成熟,相关能力也将从实验室演示走向可审计、可治理、可规模化的产业部署。对企业而言,选择模型将逐步演变为选择一套“可落地的行动系统”;对研发团队而言,技术栈将从模型训练扩展至编排、工具生态、安全与运维等全链条能力建设。
从静态计算到动态交互,人工智能技术的这次范式转变不仅关乎算法突破,更是对整个产业基础设施和应用生态的重新定义。未来的智能系统需要像人类一样"通过行动来推理",这个愿景的实现将推动人工智能从实验室走向更广阔的现实世界。在这场技术变革中,谁能率先突破基础设施与环境构建的瓶颈,谁就可能掌握下一代智能技术的制高点。