新一代文档识别模型发布：引入“视觉因果流”提升阅读顺序与复杂版式处理能力

深度求索公司近日发布了其最新一代文档识别模型DeepSeek-OCR 2，标志着该领域在视觉理解技术上取得新的突破。相比前代产品，新模型在核心视觉编码器设计上进行了系统性升级，推出了名为DeepEncoder V2的新型编码器结构。传统的文档识别系统在处理图像时存在明显的局限性。现有视觉语言模型通常将图像切分为若干视觉单元，按照从左上到右下的固定栅格顺序进行处理。这种方式虽然实现相对简单，但与人类在阅读文档、表格或公式时的实际认知过程存在显著差异。人类阅读往往基于内容的语义和逻辑关系进行跳跃式浏览，而非机械地按照空间位置顺序。特别是在版式复杂的文档场景中，视觉元素之间往往存在明确的逻辑先后关系，仅依赖空间顺序的处理方式可能限制模型对内容结构的深层理解能力。 DeepSeek-OCR 2的创新之处在于引入了"视觉因果流"的全新概念。在DeepEncoder V2中，研究团队用类语言模型结构替代了原先基于CLIP的视觉编码模块，并在编码器内部引入可学习的"因果流查询标记"。这个设计包含双向注意力与因果注意力两种处理模式的有机结合。原始视觉信息通过双向注意力进行全局感知，获取完整的视觉上下文；而新增的查询标记则通过因果注意力逐步建立语义顺序，在编码阶段对视觉单元的处理顺序进行动态重排。最终，只有经过因果重排后的查询标记才会被送入后续的解码器，用于生成最终的识别结果。在整体架构层面，DeepSeek-OCR 2保持了前代模型的编解码框架。编码器首先将图像转换为视觉标记并进行压缩，将其压缩为较少数量的视觉单元，再由DeepEncoder V2进行语义建模和顺序重组，最后交由基于混合专家架构的语言模型进行解码。这一设计在不显著增加解码负担的前提下，将单页文档所使用的视觉单元数量控制在256到1120之间，与前代模型及同类系统的资源开销保持在相近水平，说明了性能与效率的良好平衡。为验证模型的实际性能，研究团队在OmniDocBench v1.5基准上进行了全面评估。该基准涵盖多种类型的中英文文档，包括学术论文、杂志、报告等多个应用场景，重点考察文本识别、公式解析、表格结构还原以及阅读顺序等多项指标。评估结果表明，DeepSeek-OCR 2在各项指标上均实现了大幅提升。在生产环境的实际应用中，新模型表现出更好的稳定性和可靠性。在线用户日志图像的重复率从6.25%降至4.17%，批处理PDF数据的重复率从3.69%降至2.88%。这些改进数据充分说明，新模型在保持高压缩率的同时，提高了实际应用场景中的准确性和一致性，为用户提供了更加稳定可靠的服务。

随着数字经济发展，此次技术突破展示了我国在智能信息处理领域的创新能力。当机器开始模拟人类思维方式时，我们正迈向人机协同的新阶段——这不仅将提升办公效率，也将为知识管理等领域带来新的可能性。