纽约学术交锋引发关注:大型语言模型能否真正“理解世界”,走向具身智能

一、争论的焦点:语言能力是否代表智能 纽约先锋工场举办的"科学争议"对话中,图灵奖得主、深度学习专家扬·勒坤与谷歌DeepMind的亚当·布朗就大型语言模型的认知本质展开辩论;主持人贾娜·莱文引导下,双方观点鲜明对立。 布朗认为语言模型确实理解对话内容,勒坤则持怀疑态度。虽然两人都否认模型具有意识,但表述差异暗示着更深层次的分歧。 勒坤质疑人们是否被语言能力误导。他指出,人类习惯将流利语言等同于高智能,而语言模型恰好在这上表现出色,容易造成认知错觉。 二、数据对比:文本训练与感知经验的差异 勒坤用数据支持自己的观点:最大语言模型的训练数据约30万亿词(10^14字节),与4岁儿童通过视觉接收的信息量相当。但两者本质不同:儿童接收的是连续的、多维的感知数据,包括重力、运动、因果关系等,这些构建了理解物理世界的基础能力;而语言模型处理的只是离散的文本符号序列,目标仅是预测下一个词。 勒坤举例说,语言模型能通过律师考试、解数学题、写代码,却无法完成10岁儿童整理餐桌这样的简单任务。"我们还没有能像猫一样理解物理世界的智能系统。"这句话揭示了当前研究的局限性。 三、实证研究:大规模测试显示认知差距 一项由全球32所顶尖高校56名研究者合作的研究支持了勒坤的观点。他们创建了VBVR数据集,包含100多万个视频片段,是现有同类数据的千倍以上,涵盖5个认知维度的200项任务。 测试结果显示:人类平均准确率超过97%,而表现最好的商业视频生成模型Sora 2仅54.6%,谷歌Veo 3.1为48%,Runway Gen-4低至40%。即使经过专项微调,模型准确率也只能提升到68.5%,仍落后人类近30个百分点。 四、问题根源:训练方式与认知目标的偏差 研究者认为,这种差距源于训练方式与认知目标的不匹配。以文本预测为核心目标的训练让模型掌握了语言统计规律,但难以形成对物理规律的理解。语言是对世界的描述,而非世界本身。 这在机器人和自动驾驶领域尤为明显。尽管技术发展多年,能在非结构化环境中完成复杂任务的机器人仍未出现,完全无人车也尚未普及。勒坤认为这是认知建模的根本缺陷,而非工程问题。 五、未来方向:转向具身智能与世界模型 学界和产业界正将注意力转向具身智能和世界模型。具身智能强调通过与物理环境互动学习;世界模型则致力于在系统中建立对物理规律的明确表征。 VBVR数据集的发布为这些研究提供了评估基础。研究者希望通过更贴近真实场景的测试标准,推动模型在感知和推理能力上的真正突破。

这场跨界的深度辩论不仅揭示了AI技术的认知边界,更促使我们重新思考智能的本质。当机器在标准化测试中屡创纪录时,其对真实世界的理解仍很初级。这提醒科技工作者:在追求参数规模的同时,可能需要回归生物智能的演化逻辑,建立更接近人类认知的学习框架。未来智能技术的发展,可能取决于能否在数据驱动与物理建模之间找到平衡。