美团开源“重思考”推理模型升级发布多评测达开源领先并强化工具泛化能力

一、问题与挑战当前大模型在处理复杂任务时面临两大核心难题。

其一，智能体模型的工具调用泛化能力不足，在面对新工具、新场景时往往需要大量重新训练才能适应，这大幅增加了真实业务部署的成本。

其二，传统智能体模型的推理过程相对单线条，缺乏对问题的深度思考和多角度探索能力，导致在处理高难度任务时容易陷入局部最优解。

二、技术创新为解决上述问题，美团LongCat团队推出了LongCat-Flash-Thinking-2601模型，在技术架构上进行了多项突破创新。

首先是"重思考"模式的设计。

该模式将复杂问题的求解过程分为两个阶段：并行思考阶段和总结归纳阶段。

在并行思考阶段，模型可同时启动8条独立的推理路径，每条路径独立探索不同的解决方案，确保思路的多样性。

这种设计借鉴了人类面对难题时的思维方式——通常会同时尝试多种解法。

在总结归纳阶段，模型对多条推理路径进行梳理、对比、优化与融合，将优化后的结果重新输入模型，形成闭环迭代推理，推动思考过程的持续深化。

其次是强化学习的融入。

美团团队在模型中加入了针对性的强化学习环节，专门打磨模型的总结归纳能力，使其能够更准确地从众多推理路径中甄别出最优方案，最终实现"想清楚再行动"的推理逻辑。

第三是训练方法的创新。

美团提出了"环境扩展加多环境强化学习"的核心技术方案。

团队构建了一套自动化任务合成流程，可根据给定关键词为任意场景随机生成复杂任务，并配备对应的工具集与可执行环境。

团队为模型打造了多样化的"高强度练兵场"，构建了多套高质量训练环境，每套环境中集成了60余种工具形成密集的依赖关系图谱与复杂联动，支撑起高度复杂的任务场景。

这种做法类似于让士兵不仅在靶场训练，更要在多种复杂战场环境中磨练，从而大幅提升模型在未知场景中的适应能力。

三、性能表现根据美团的评估数据，LongCat-Flash-Thinking-2601模型在多个关键维度表现优异。

在智能体搜索、智能体工具调用、工具交互推理等核心评测基准上，均达到开源模型的先进水平。

特别是在工具调用的泛化能力上优势明显，在依赖工具调用的随机复杂任务中，性能表现超越了Claude-Opus-4.5-Thinking等商用模型。

同时，该模型在编程、数学推理等传统评测维度上也保持了竞争力。

四、实际应用价值这一技术突破具有重要的实际应用价值。

一方面，工具调用泛化能力的提升意味着企业在部署新工具、新业务流程时，可大幅度降低模型的适配训练成本，加快业务创新的落地速度。

另一方面，深度推理能力的增强使得模型能够处理更复杂、更具挑战性的问题，拓展了大模型在智能决策、复杂任务规划等领域的应用空间。

五、行业意义美团此举在开源生态中具有重要意义。

一是为开源社区贡献了高质量的模型资源，降低了企业和开发者获取先进技术的门槛。

二是通过开源"重思考"模式的实现方案，为业界提供了一种新的思路，可能激发更多相关研究和应用创新。

三是该模型的成功训练经验表明，通过构建多样化、高质量的训练环境，可以显著提升模型的泛化能力和实用性。

美团此次技术突破不仅展示了中国企业在人工智能领域的创新能力，更揭示了智能体技术发展的新方向。

在数字经济快速发展的今天，如何让AI系统具备更接近人类的思考能力，仍将是学界和产业界持续探索的重要命题。

这项开源成果或将激发更多创新，推动人工智能技术向更高水平发展。

美团开源“重思考”推理模型升级发布 多评测达开源领先并强化工具泛化能力