清华等高校研究发现:多模态大模型存在符号理解短板

(问题) 符号是人类记录知识、传递信息的重要载体——既包括文字——也包括数学与化学表达式、物理电路图以及网络文化中的表情符号等。研究团队指出,多类大模型开放域对话、写作生成等任务中表现亮眼,但一旦进入以“精确识别、严格对齐”为核心要求的符号场景,短板更为突出:其一,面对笔画缺失、部件变形等“近似符号”,模型容易把错误内容直接当作正确符号输出,难以明确指出“错在何处”;其二,在需要结合上下文判断用字正误、对符号进行纠错与校验时,稳定性不足,常给出看似合理却不符合规则的回答;其三,在部分复杂推理题中即便能得出正确结论,对前提符号的辨识与复核仍可能遗漏,出现“结果对了、过程未必可靠”的情况。 (原因) 研究认为,这些现象与模型的训练与表征方式有关:一是训练数据中语言与图文共现样本丰富,模型更擅长基于有关性进行联想,但对符号的细粒度结构(如字形部件、公式符号的位置关系、图形连线拓扑)缺少可解释、可验证的稳定表征;二是生成式模型倾向输出“最可能的答案”,当输入存在噪声或书写不规范时,模型更容易进行“自动补全”而非“精确识别”,从而把本应暴露的错误掩盖;三是现有评测长期偏重语言流畅度与常识推断,而符号任务所需的规则约束、逐步校验和可追溯证据链训练相对不足,导致模型在规则性强的场景中更易偏离。 (影响) 业内人士指出,符号理解的不足并非“小问题”。在教育、科研与工业等高风险领域,符号错误可能引发连锁后果:在作业批改与学习辅导中,若模型把错字“看成对字”,会误导学生对规范书写与语法规则的掌握;在化学式、药品名称、工程图纸等专业文本处理场景中,细微差异可能对应完全不同的含义,错误识别会影响检索、核对与决策;在跨文化传播中,表情符号、缩略语等文化符号高度依赖语境,误读会显著增加沟通成本。研究强调,不能把“会生成”简单等同于“会理解”,尤其是在需要严谨校验的专业环节。 (对策) 研究提出,提升符号能力需要在数据、模型与应用层面同步推进:一是建立覆盖文字、公式、图表、图示等多类型符号的标准化评测与数据集,突出“识别—组合—校验”全链条能力,避免只看最终答案;二是引入更强的结构化感知与对齐机制,强化对部件、位置、连通关系等结构信息的建模,并在训练中加入“发现错误并给出依据”的约束;三是在应用侧建立双重校验流程,对关键符号信息引入规则引擎、知识库比对或外部工具核验,形成“生成—验证—再生成”的闭环,降低单次生成的不确定性;四是面向教育、医疗、工程等重点领域,明确责任边界与使用规范,强化人工复核与可追溯记录。 (前景) 研究团队认为,符号理解将成为衡量下一阶段通用智能系统可靠性的重要标尺。随着多模态训练、工具调用与可验证推理框架发展,模型在“看得清、算得准、验得出”上有望持续提升。但从工程实践看,符号场景对精确性与可解释性的要求更高,短期内仍需以评测驱动改进、以机制控制风险,推动大模型从“相关性强”走向“规则性稳、可核验”。

这项研究不仅指出了现阶段的技术瓶颈,也带来了关于智能能力边界的继续追问。在持续提升性能的同时,如何让机器真正“读懂”人类的符号体系,仍是科研人员需要面对的重要课题。正如研究者所言:“理解符号就是理解文明,这或许是智能发展必须跨越的关键门槛。”