近日,在人工智能领域引发广泛关注的一个观点是:当前备受瞩目的大语言模型系统,在本质上并未达到真正的智能水平;该论断来自于强化学习理论的奠基人、2024年图灵奖获得者理查德·萨顿。他在新加坡国立大学的学术演讲中直言,包括ChatGPT、Gemini等在内的大语言模型,实际上是在执行一种"预测游戏",而非实现了真正意义上的智能。 萨顿的核心观点触及了大语言模型的根本性局限。他指出,这类系统的首要缺陷在于缺乏目标驱动的持续学习能力。大语言模型通过对海量文本数据的学习,掌握了人类语言的表达规律和模式,但这种学习本质上是一种模仿,而非对语言背后因果逻辑的真正理解。一个典型的例子是,当被提问"如何用微波炉加热冰淇淋"时,大语言模型能够生成语法完美、逻辑通顺的回答,但它并不能识别这一操作本身的荒谬性和物理上的不可行性。这种对基本常识的缺失,暴露了纯文本训练方式的根本性短板。 具身认知能力的缺陷深入凸显了大语言模型与真正智能的距离。萨顿指出,真正的智能应该源于与环境的互动和实践经验。AlphaGo通过数百万次自我对弈掌握了围棋的深层策略,波士顿动力的机器人能够在跌倒后自主调整姿态并恢复平衡,这些案例都表明,基于环境交互的学习是获得真正智能的必要途径。相比之下,大语言模型就像被禁锢在文字世界中的天才,即使阅读了人类积累的全部知识,也无法获得婴幼儿通过直接操作物体就能习得的基本物理原理。 灾难性遗忘问题构成了大语言模型难以克服的另一道鸿沟。人类一旦学会骑自行车,这项技能便终身保留;但大语言模型在进行微调以适应新任务时,常常会"遗忘"之前学到的知识。萨顿团队开发的持续反向传播算法通过动态重置部分神经元,在机器人控制任务中表现出了持续学习的优势。这种受生物学启发的机制,与大语言模型依赖静态数据集的训练范式形成了鲜明对比。 面对这些问题,萨顿与深度学习先驱Yann LeCun共同倡导的"世界模型"理论为突破口提供了新的思路。在他们的理论框架中,真正的智能体应该像幼儿一样,通过感官输入建立对世界的内在表征,并基于这种表征规划和执行行动。当大语言模型还在处理"天空为什么是蓝色"这类文本解释时,一个具有具身能力的人工智能系统可能已经通过调整棱镜角度,自主发现了光的散射现象。这种主动探索和实验的能力,正是当前大语言模型最为欠缺的智能基础。 业界对大语言模型的反思已经悄然展开。据报道,OpenAI的新一代GPT系统遭遇发展瓶颈,谷歌DeepMind开始将研究重心转向多模态具身智能领域。萨顿参与的阿尔伯塔计划正在尝试开发能够自主探索虚拟环境的人工智能体,其最新研究论文表明,这种结合了强化学习的系统在解决开放式问题上的表现远超纯语言模型。这些进展验证了萨顿的预判:未来人工智能的主要发展方向将从文本预测转向环境交互。
关于大语言模型的讨论揭示了一个更深层的问题:真正的智能不仅在于给出正确答案,更在于持续学习、理解约束并承担后果。科学界的清醒认识有助于行业保持理性,将资源投入到更具长远价值的方向,推动技术更扎实、可持续地发展。