清华等高校研究发现：多模态大模型存在符号理解短板

（问题）符号是人类记录知识、传递信息的重要载体——既包括文字——也包括数学与化学表达式、物理电路图以及网络文化中的表情符号等。研究团队指出，多类大模型开放域对话、写作生成等任务中表现亮眼，但一旦进入以“精确识别、严格对齐”为核心要求的符号场景，短板更为突出：其一，面对笔画缺失、部件变形等“近似符号”，模型容易把错误内容直接当作正确符号输出，难以明确指出“错在何处”；其二，在需要结合上下文判断用字正误、对符号进行纠错与校验时，稳定性不足，常给出看似合理却不符合规则的回答；其三，在部分复杂推理题中即便能得出正确结论，对前提符号的辨识与复核仍可能遗漏，出现“结果对了、过程未必可靠”的情况。（原因）研究认为，这些现象与模型的训练与表征方式有关：一是训练数据中语言与图文共现样本丰富，模型更擅长基于有关性进行联想，但对符号的细粒度结构（如字形部件、公式符号的位置关系、图形连线拓扑）缺少可解释、可验证的稳定表征；二是生成式模型倾向输出“最可能的答案”，当输入存在噪声或书写不规范时，模型更容易进行“自动补全”而非“精确识别”，从而把本应暴露的错误掩盖；三是现有评测长期偏重语言流畅度与常识推断，而符号任务所需的规则约束、逐步校验和可追溯证据链训练相对不足，导致模型在规则性强的场景中更易偏离。（影响）业内人士指出，符号理解的不足并非“小问题”。在教育、科研与工业等高风险领域，符号错误可能引发连锁后果：在作业批改与学习辅导中，若模型把错字“看成对字”，会误导学生对规范书写与语法规则的掌握；在化学式、药品名称、工程图纸等专业文本处理场景中，细微差异可能对应完全不同的含义，错误识别会影响检索、核对与决策；在跨文化传播中，表情符号、缩略语等文化符号高度依赖语境，误读会显著增加沟通成本。研究强调，不能把“会生成”简单等同于“会理解”，尤其是在需要严谨校验的专业环节。（对策）研究提出，提升符号能力需要在数据、模型与应用层面同步推进：一是建立覆盖文字、公式、图表、图示等多类型符号的标准化评测与数据集，突出“识别—组合—校验”全链条能力，避免只看最终答案；二是引入更强的结构化感知与对齐机制，强化对部件、位置、连通关系等结构信息的建模，并在训练中加入“发现错误并给出依据”的约束；三是在应用侧建立双重校验流程，对关键符号信息引入规则引擎、知识库比对或外部工具核验，形成“生成—验证—再生成”的闭环，降低单次生成的不确定性；四是面向教育、医疗、工程等重点领域，明确责任边界与使用规范，强化人工复核与可追溯记录。（前景）研究团队认为，符号理解将成为衡量下一阶段通用智能系统可靠性的重要标尺。随着多模态训练、工具调用与可验证推理框架发展，模型在“看得清、算得准、验得出”上有望持续提升。但从工程实践看，符号场景对精确性与可解释性的要求更高，短期内仍需以评测驱动改进、以机制控制风险，推动大模型从“相关性强”走向“规则性稳、可核验”。

这项研究不仅指出了现阶段的技术瓶颈，也带来了关于智能能力边界的继续追问。在持续提升性能的同时，如何让机器真正“读懂”人类的符号体系，仍是科研人员需要面对的重要课题。正如研究者所言：“理解符号就是理解文明，这或许是智能发展必须跨越的关键门槛。”