问题——大模型评估标准重塑,下一步增长点哪里; 过去两年,大模型能力边界不断扩展,行业对模型的核心期待发生明显变化:从“能否回答得更像人”转向“能否在可验证任务中更正确、更稳定”。在此背景下,林俊旸将近期行业进展概括为两个趋势:一是“思考能力”可以被专门训练并形成产品化能力;二是推理式后训练逐步显现规模化路径,推动行业重心由预训练更转向强化学习等后训练环节。面向2025年上半年仍较为聚焦的“推理式思考”,他提出新的追问——仅靠延长推理链条与提升“想得更久”,是否仍能支撑下一轮突破。 原因——从“内部思辨”到“外部行动”,目标函数发生变化。 林俊旸认为,推理式思考与智能体式思考的差异,本质在于优化目标不同:前者主要衡量模型内部推导质量,后者强调“为了行动而思考”,关注模型能否在与外部环境交互中持续推进任务、根据反馈调整计划并形成闭环。在该逻辑下,单一模型参数提升不再是唯一主线,“模型+工具+环境+反馈”共同构成能力上限。由此出现“模型工具链(Harness)”的重要性:它为模型提供工具调用、任务编排、环境交互与评价回路,使“智能”能够转化为可运行、可交付的系统能力。 影响——技术路线与产品交付相互牵引,基础设施成为分水岭。 围绕这一转向,林俊旸复盘了千问团队在技术路线上的一次尝试:在统一体系内融合“思考”与“指令”两种模式,并以有关版本作为落地探索。但在实践中,两类模式在数据分布与目标诉求上存在差异,强行合并容易造成两端表现均不突出,难以满足商业化场景对稳定性、成本与可控性的要求。随后团队以分版本策略应对:分别推出面向执行指令的版本与强调推理能力的版本,并提出更理想的融合方式应当是让模型在推理力度上形成连续谱系,按需分配计算资源,而不是简单拼接两种风格。 这一复盘折射出行业普遍面临的现实约束:企业应用追求确定性、成本与工程效率,单纯追求更长推理链条可能带来算力浪费与时延压力。随着竞争从“模型指标”走向“系统效果”,环境构建、评测体系、工具接口标准、训练与推理解耦能力等,正在成为新的能力分层点。 对策——以系统工程思维推进“模型—环境”协同,强化治理与安全边界。 面向“训练智能体”的趋势,业内需要在三上发力:其一,完善可验证任务与真实环境的训练闭环,在数学、代码等高可检验领域持续提高正确率,同时向更多真实业务流程扩展可评测能力;其二,建设可复用的工具与环境基础设施,形成稳定的任务执行框架、权限与调用规范,提升跨场景迁移效率;其三,加强对训练反馈机制的治理,尤其需要防范“奖励作弊”等风险,即模型在追求奖励信号时走捷径、偏离真实目标,影响可靠性与安全性。只有把“能完成任务”与“按规则完成任务”同步纳入工程与治理框架,智能体系统才可能进入大规模应用阶段。 前景——行业进入“系统能力竞争”窗口期,组织与投入将向基础设施倾斜。 在林俊旸发声后不久,阿里巴巴宣布成立相关事业群并由集团负责人挂帅,从侧面体现企业对下一阶段技术与组织形态的判断:当模型能力趋于普及,决定竞争优势的将更多是工具链、平台化能力以及对海量应用场景的承接效率。业内人士普遍认为,未来一段时间,模型厂商与应用方将加速围绕“智能体”开展产品化探索,工程能力、算力调度、数据闭环、评测标准与安全治理等将成为投入重点。随着更多数字化工作流程被拆解为可执行的任务单元,面向行业的“可控、可审计、可提升”的系统将更受市场青睐。
大模型技术的演进轨迹清晰地反映了人工智能从理论探索向实际应用转变的过程。从推理式思考到智能体式思考的转变,不仅是技术路线的调整,更是对AI价值实现方式的重新定义。当行业从追求"更长的思考链"转向追求"更有效的行动"时,大模型的应用前景也随之扩展。未来,那些能够有效整合模型能力与环境交互、构建完整智能体系统的企业,将在新一轮竞争中占据优势。