智能模型实现计算机原生操控 专业领域表现超越人类

一、新模型正式亮相,能力全面跃升 美国人工智能企业OpenAI近日正式对外发布GPT-5.4系列大模型,该系列包含两个版本:专注于复杂推理任务的GPT-5.4 Thinking,以及面向企业级高端需求的GPT-5.4 Pro;官方将其定位为目前能力最强、效率最高的专业工作前沿模型。 与上一代模型相比,新模型推理能力、编程能力及专业办公任务处理上均有提升,尤其电子表格、演示文稿制作等复杂办公场景中的表现更为突出。GPT-5.4 Thinking已向付费订阅用户开放,并取代此前的上一代推理版本;GPT-5.4 Pro则专门面向企业级客户提供服务。 二、原生操控计算机,突破技术边界 此次发布最受业界关注的突破,在于OpenAI首次将原生计算机操控能力整合至通用模型之中。新模型不再局限于生成文字或代码,而是能够通过读取屏幕截图,直接操作计算机软件、自主浏览网页,并通过模拟鼠标与键盘指令完成跨应用的复杂工作流程,同时支持与电子表格、金融分析工具等企业应用进行深度整合。 在计算机操控能力的权威基准测试OSWorld-Verified中,GPT-5.4取得了75.0%的任务成功率,超过人类平均水平72.4%,较上一代模型47.3%的成绩实现了大幅跃升。此数据表明,新一代大模型在执行具体操作任务上已具备超越普通人类操作者的能力。 三、上下文窗口扩至百万量级,编程效率大幅提升 技术规格层面,GPT-5.4在编程接口及代码开发平台上支持最高达百万量级的上下文窗口,是该企业迄今提供的最大上下文处理容量。这一能力使模型能够在跨步骤、长链路的复杂任务中保持连贯的规划、执行与验证,尤其适用于大型代码工程、长周期研究分析等场景。 在编程效率上,开启快速模式后,新模型的词元生成速度可提升约1.5倍,有效缩短代码编写与调试周期。此外,模型还新增"思考过程预览"功能,处理复杂查询时会预先展示推理思路,用户可在模型响应过程中实时调整方向,从而减少沟通成本,提升协作效率。 四、定价策略调整,总体使用成本有望下降 在商业定价上,GPT-5.4的接口调用价格较上一代略有上调:每百万输入词元定价为2.5美元,输出词元为15美元。GPT-5.4 Pro的定价则显著更高,每百万输入词元为30美元,输出词元为180美元,主要面向对性能有极高要求的企业用户。 不容忽视的是,由于新模型词元处理效率上有所提升,完成同等任务所需的词元消耗量相应减少,因此许多实际应用场景下的综合使用成本反而可能低于上一代模型。OpenAI上表示,上一代推理版本计划于2026年6月正式下线。 五、行业影响深远,竞争格局加速演变 从更宏观的视角来看,此次发布具有重要的行业信号意义。将推理、编程与计算机操控能力整合至单一通用模型,意味着大模型的应用边界正在从"辅助生成内容"向"自主执行任务"加速延伸。这一趋势对企业数字化转型、知识工作者的职能分工乃至整个软件服务行业的商业模式,都将产生深远影响。 目前,全球多家科技企业正在加速布局具备自主操作能力的智能体系统,对应的技术竞争日趋激烈。如何在提升模型能力的同时,有效管控自主操作带来的安全风险与伦理挑战,已成为行业亟待正视的核心议题。

模型能力的跃升正在改变数字化生产的路径——从提升单点效率,走向重塑流程与协作方式。面对"可执行"的新工具,企业既要抓住效率红利,也要守住安全与合规底线,以小步快跑的方式验证价值、迭代机制,让技术进步更稳、更实地服务于实体经济与社会治理。