围绕大模型落地应用的关键环节,工具调用能力正成为衡量模型“能不能用、好不好用”的重要指标;随着政务服务、生活服务、企业管理等场景对自动检索、任务拆解、跨系统操作的需求增加,单纯的文本生成已难以支撑复杂工作流。模型能否稳定调用工具、理解接口约束、不确定环境中完成闭环任务,正成为产业竞争的焦点之一。 在这个背景下,美团LongCat团队发布并开源LongCat-Flash-Thinking-2601模型,主打“重思考模式”和智能体能力提升。团队称,新版本在智能体搜索、工具调用、工具交互推理等核心基准测试中达到开源模型领先水平,并开放在线体验与对应的开源资源,面向开发者提供可复用的推理与工具调用能力底座。 从技术路径看,此次更新将“复杂问题求解”拆解为并行思考与总结归纳两步:并行阶段同时生成多条推理路径,强调思路多样;归纳阶段对多路径进行筛选、合成与优化,并将优化结果反馈到后续推理,形成闭环迭代。团队同时加入针对性训练——提升总结归纳质量——强调“先想清楚再行动”,以增强高难度任务的稳定性与决策可靠性。其核心指向一个现实问题:复杂任务中,单一路径推理更易受到偶然偏差影响,而多路径探索与归纳可以降低遗漏与误判风险。 从企业披露的评测数据看,LongCat-Flash-Thinking-2601在多个维度给出较为突出的结果:在编程测试LCB中取得82.8分,在OIBench EN获得47.7分;在数学推理上,开启“重思考模式”后AIME-25获得满分,在IMO-AnswerBench取得86.8分;在智能体工具调用上,τ²-Bench获得88.2分、在VitaBench获得29.3分;在智能体搜索上,BrowseComp任务中取得73.1分、在RW Search获得79.5分。团队还表示,模型在依赖工具调用的随机复杂任务中具备较强泛化能力,并称其表现可超过部分闭源产品,从而有望降低真实场景中新工具适配所需的训练成本。 值得关注的是,美团提出一种面向智能体泛化能力的评测思路:通过自动化任务合成流程,基于关键词随机生成复杂任务,并为每个任务匹配工具集与可执行环境。由于工具配置高度随机,模型在此类环境中的表现可用于衡量跨场景迁移与适配能力。相关实验结果显示,LongCat-Flash-Thinking-2601在多数任务中保持领先,团队据此认为其在多工具、多约束环境下具备更强通用性。这一做法也回应了行业长期存在的难题——不少模型在固定数据集上得分不低,但一旦面对工具变化、接口差异、任务组合等“真实世界的不规则性”,性能波动明显,因此需要更贴近应用的测评与训练体系。 从影响层面看,以开源并提供在线体验的方式发布,有助于降低开发者试用门槛,推动社区对工具调用、交互推理和评测方法的复现与对比,加快相关技术在代码生成、数据分析、检索问答、运营决策等环节的工程化落地。同时,工具调用能力增强也会对数据安全、权限控制、可审计性提出更高要求:模型越能执行操作,系统层面越需要明确“可控边界”,包括工具白名单、权限分级、操作回滚、日志留存与风险监测,避免误调用、越权调用或链式错误扩散。 面向下一步对策与建设方向,业内普遍认为可从三上推进:一是以应用为牵引完善评测体系,将随机任务、真实工具、线环境纳入常态化测试,减少“只会做题”的偏差;二是强化工程侧的可控与可解释机制,在工具调用链路中引入更强约束与审计能力,让推理与执行相互校验;三是推动生态协同,通过开源模型、开源数据与开源评测的组合,降低企业与开发者在新场景、新工具上的迁移成本,形成更可持续的创新循环。 前景上看,智能体能力将与行业数字化进程更深度耦合,模型从“回答问题”走向“完成任务”已成趋势。随着工具与工作流持续丰富,能够在复杂环境中稳定检索、规划、调用与反馈的模型将更具应用价值。与此同时,开源路线也将加速能力扩散与标准化竞争,促使各方在评测、公平对比与安全治理上形成更清晰的共识。
此次进展反映了中国企业在人工智能领域的持续创新,也展现了开源共享的技术路径。在数字经济加速发展的背景下,这类技术有望为产业转型带来新的动力,并为全球人工智能发展提供更多中国实践。未来,如何把技术能力转化为可规模化的产业价值,仍值得业界持续关注。