纽约学术交锋引发关注：大型语言模型能否真正“理解世界”，走向具身智能

一、争论的焦点：语言能力是否代表智能纽约先锋工场举办的"科学争议"对话中，图灵奖得主、深度学习专家扬·勒坤与谷歌DeepMind的亚当·布朗就大型语言模型的认知本质展开辩论；主持人贾娜·莱文引导下，双方观点鲜明对立。布朗认为语言模型确实理解对话内容，勒坤则持怀疑态度。虽然两人都否认模型具有意识，但表述差异暗示着更深层次的分歧。勒坤质疑人们是否被语言能力误导。他指出，人类习惯将流利语言等同于高智能，而语言模型恰好在这上表现出色，容易造成认知错觉。二、数据对比：文本训练与感知经验的差异勒坤用数据支持自己的观点：最大语言模型的训练数据约30万亿词（10^14字节），与4岁儿童通过视觉接收的信息量相当。但两者本质不同：儿童接收的是连续的、多维的感知数据，包括重力、运动、因果关系等，这些构建了理解物理世界的基础能力；而语言模型处理的只是离散的文本符号序列，目标仅是预测下一个词。勒坤举例说，语言模型能通过律师考试、解数学题、写代码，却无法完成10岁儿童整理餐桌这样的简单任务。"我们还没有能像猫一样理解物理世界的智能系统。"这句话揭示了当前研究的局限性。三、实证研究：大规模测试显示认知差距一项由全球32所顶尖高校56名研究者合作的研究支持了勒坤的观点。他们创建了VBVR数据集，包含100多万个视频片段，是现有同类数据的千倍以上，涵盖5个认知维度的200项任务。测试结果显示：人类平均准确率超过97%，而表现最好的商业视频生成模型Sora 2仅54.6%，谷歌Veo 3.1为48%，Runway Gen-4低至40%。即使经过专项微调，模型准确率也只能提升到68.5%，仍落后人类近30个百分点。四、问题根源：训练方式与认知目标的偏差研究者认为，这种差距源于训练方式与认知目标的不匹配。以文本预测为核心目标的训练让模型掌握了语言统计规律，但难以形成对物理规律的理解。语言是对世界的描述，而非世界本身。这在机器人和自动驾驶领域尤为明显。尽管技术发展多年，能在非结构化环境中完成复杂任务的机器人仍未出现，完全无人车也尚未普及。勒坤认为这是认知建模的根本缺陷，而非工程问题。五、未来方向：转向具身智能与世界模型学界和产业界正将注意力转向具身智能和世界模型。具身智能强调通过与物理环境互动学习；世界模型则致力于在系统中建立对物理规律的明确表征。 VBVR数据集的发布为这些研究提供了评估基础。研究者希望通过更贴近真实场景的测试标准，推动模型在感知和推理能力上的真正突破。

这场跨界的深度辩论不仅揭示了AI技术的认知边界，更促使我们重新思考智能的本质。当机器在标准化测试中屡创纪录时，其对真实世界的理解仍很初级。这提醒科技工作者：在追求参数规模的同时，可能需要回归生物智能的演化逻辑，建立更接近人类认知的学习框架。未来智能技术的发展，可能取决于能否在数据驱动与物理建模之间找到平衡。