问题:当前大模型能力竞争正从“会对话”转向“能推理、会做事”。科研、工程、政企办公等场景中,用户不仅需要模型给出答案,更希望其能在复杂约束下完成多步推理,可靠调用工具,并稳定输出可复核的结果。,推理计算的成本与效率仍是规模化落地的关键瓶颈:算力投入越大,边际收益越难评估;重复推导和冗余路径也会带来资源浪费,影响产品体验与企业部署意愿。 原因:一上,基础模型能力提升依赖高质量数据、超大规模训练与有效的后训练体系。业内通常通过扩大参数规模、提升预训练数据覆盖面,并强化学习等后训练环节对指令遵循、人类偏好对齐等能力进行优化。另一上,推理阶段的计算方式决定了“同样算力能得到多聪明的结果”。传统方法往往通过增加并行推理路径来提高成功率,但容易对同一结论反复推导,效率提升有限。随着应用从单轮问答走向多步骤任务协作,模型还需要更强的任务分解与工具调用能力,才能真实业务中完成“从理解到执行”的闭环。 影响:据发布信息,Qwen3-Max-Thinking定位为千问体系中规模最大、能力最强的推理模型之一,总参数量超万亿级,预训练数据量达36万亿Tokens,并在科学知识、数学推理、代码编程等关键评测中表现突出。其后训练引入更大规模强化学习,使模型在事实知识、复杂推理、指令遵循、偏好对齐与工具使用等能力上实现更均衡的提升。值得关注的是,模型采用新的测试时扩展机制,在推理阶段对既有推导进行“提炼—迭代”,以减少冗余计算、提升推理质量与成本效率。有关数据显示,在包含工具使用的综合测试中,该模型取得较高得分,反映出其在“使用工具解决复杂问题”上的进步。对产业而言,这类能力提升意味着大模型研发辅助、数据分析、代码生成与调试、知识检索与整理等环节的可用性增强,有助于推动应用从“试点”走向“规模部署”。 对策:推动大模型从技术指标走向真实生产力,需要技术、治理与生态共同推进。技术层面,应持续完善后训练体系,围绕复杂推理、工具使用、多任务协作开展针对性训练与评测,同时强化推理效率的工程优化,降低企业接入与使用成本。治理层面,应健全安全合规与风险控制机制,明确数据来源与使用规范,提升输出的可解释性与可追溯性,降低不准确生成带来的业务风险。生态层面,应通过开放接口与平台化能力,支持开发者在行业知识库、工作流编排、工具链集成各上沉淀可复用方案,形成“模型能力—行业应用—反馈迭代”的闭环,加快在政务、制造、金融、科研教育等领域的落地范式。 前景:随着智能体技术加速演进,大模型竞争焦点将从“单点能力”继续转向“系统能力”,即在复杂任务中能够自主规划、调用工具、持续迭代并完成交付。推理效率与成本控制将成为影响应用普及的重要变量。此次发布的旗舰推理模型在评测指标、推理机制与工具能力上的提升,显示国内企业正沿着“更强推理、更低成本、更易落地”的方向加速突破。未来,如何提升可信度、稳定性与可控性,并与行业数据和业务流程深度融合,仍是大模型进入更多关键领域必须回答的问题。
大模型竞争的核心在于持续创新能力。千问新模型在推理机制与强化学习等关键环节的进展,显示国内企业在大模型技术创新上与国际先进水平的差距正在缩小。随着新模型的推广应用,有望继续完善国内大模型生态,推动产业应用深化,为数字经济发展提供新的支撑。