美团开源"重思考"模型工具调用能力业界领先

围绕大模型落地应用的关键环节，工具调用能力正成为衡量模型“能不能用、好不好用”的重要指标；随着政务服务、生活服务、企业管理等场景对自动检索、任务拆解、跨系统操作的需求增加，单纯的文本生成已难以支撑复杂工作流。模型能否稳定调用工具、理解接口约束、不确定环境中完成闭环任务，正成为产业竞争的焦点之一。在这个背景下，美团LongCat团队发布并开源LongCat-Flash-Thinking-2601模型，主打“重思考模式”和智能体能力提升。团队称，新版本在智能体搜索、工具调用、工具交互推理等核心基准测试中达到开源模型领先水平，并开放在线体验与对应的开源资源，面向开发者提供可复用的推理与工具调用能力底座。从技术路径看，此次更新将“复杂问题求解”拆解为并行思考与总结归纳两步：并行阶段同时生成多条推理路径，强调思路多样；归纳阶段对多路径进行筛选、合成与优化，并将优化结果反馈到后续推理，形成闭环迭代。团队同时加入针对性训练——提升总结归纳质量——强调“先想清楚再行动”，以增强高难度任务的稳定性与决策可靠性。其核心指向一个现实问题：复杂任务中，单一路径推理更易受到偶然偏差影响，而多路径探索与归纳可以降低遗漏与误判风险。从企业披露的评测数据看，LongCat-Flash-Thinking-2601在多个维度给出较为突出的结果：在编程测试LCB中取得82.8分，在OIBench EN获得47.7分；在数学推理上，开启“重思考模式”后AIME-25获得满分，在IMO-AnswerBench取得86.8分；在智能体工具调用上，τ²-Bench获得88.2分、在VitaBench获得29.3分；在智能体搜索上，BrowseComp任务中取得73.1分、在RW Search获得79.5分。团队还表示，模型在依赖工具调用的随机复杂任务中具备较强泛化能力，并称其表现可超过部分闭源产品，从而有望降低真实场景中新工具适配所需的训练成本。值得关注的是，美团提出一种面向智能体泛化能力的评测思路：通过自动化任务合成流程，基于关键词随机生成复杂任务，并为每个任务匹配工具集与可执行环境。由于工具配置高度随机，模型在此类环境中的表现可用于衡量跨场景迁移与适配能力。相关实验结果显示，LongCat-Flash-Thinking-2601在多数任务中保持领先，团队据此认为其在多工具、多约束环境下具备更强通用性。这一做法也回应了行业长期存在的难题——不少模型在固定数据集上得分不低，但一旦面对工具变化、接口差异、任务组合等“真实世界的不规则性”，性能波动明显，因此需要更贴近应用的测评与训练体系。从影响层面看，以开源并提供在线体验的方式发布，有助于降低开发者试用门槛，推动社区对工具调用、交互推理和评测方法的复现与对比，加快相关技术在代码生成、数据分析、检索问答、运营决策等环节的工程化落地。同时，工具调用能力增强也会对数据安全、权限控制、可审计性提出更高要求：模型越能执行操作，系统层面越需要明确“可控边界”，包括工具白名单、权限分级、操作回滚、日志留存与风险监测，避免误调用、越权调用或链式错误扩散。面向下一步对策与建设方向，业内普遍认为可从三上推进：一是以应用为牵引完善评测体系，将随机任务、真实工具、线环境纳入常态化测试，减少“只会做题”的偏差；二是强化工程侧的可控与可解释机制，在工具调用链路中引入更强约束与审计能力，让推理与执行相互校验；三是推动生态协同，通过开源模型、开源数据与开源评测的组合，降低企业与开发者在新场景、新工具上的迁移成本，形成更可持续的创新循环。前景上看，智能体能力将与行业数字化进程更深度耦合，模型从“回答问题”走向“完成任务”已成趋势。随着工具与工作流持续丰富，能够在复杂环境中稳定检索、规划、调用与反馈的模型将更具应用价值。与此同时，开源路线也将加速能力扩散与标准化竞争，促使各方在评测、公平对比与安全治理上形成更清晰的共识。

此次进展反映了中国企业在人工智能领域的持续创新，也展现了开源共享的技术路径。在数字经济加速发展的背景下，这类技术有望为产业转型带来新的动力，并为全球人工智能发展提供更多中国实践。未来，如何把技术能力转化为可规模化的产业价值，仍值得业界持续关注。

美团开源"重思考"模型 工具调用能力业界领先

美团开源"重思考"模型工具调用能力业界领先