中国科学家把轻量化ocr 模型做到了新高度

中国科学家把轻量化OCR模型做到了新高度。北京智谱华章科技有限公司这回把自主研发的GLM-OCR模型给开源了。这个模型的参数量才0.9B,结果在OmniDocBench V1.5评测里拿下了94.6分,把第一名给摘走了。这个成绩比很多参数量大的模型都要好。在表格识别、公式识别还有关键信息抽取这些细分领域,它的表现也非常亮眼。 研发团队用CogViT视觉编码器和深度场景优化技术把模型给打磨得又小巧又精确。技术负责人表示,“小而精”的设计不仅能满足边缘计算的需求,也体现了我国科研人员对基础模型优化的深度思考。 在实际应用中,GLM-OCR模型展示了强大的适应能力。手写体识别对它来说是小菜一碟,复杂表格里的合并单元格、多层表头它也能看得清清楚楚。处理完这些信息之后,它能直接生成HTML代码,让表格变得容易展示和处理。 这个模型在处理代码文档、多语言混排文本还有印章文字提取这些高难度任务上也很出色。即使是包含竖排文字和图文混排的复杂版式文档,它的识别准确率和系统鲁棒性都很高。 为了方便大家使用,GLM-OCR采用了完全开源策略。用户只要输入简单的命令就能部署模型。它支持vLLM、SGLang和Ollama这些主流框架,在边缘计算设备上集成应用特别方便。 这个模型输出的是标准JSON格式,银行风控、保险理赔这些行业系统都能直接对接。它还能给RAG提供高质量的数据基础。测试显示,处理速度比传统方案快好几倍,成本却只要同类方案的十分之一。 在工程实践中,GLM-OCR处理PDF文档的速度是1.86页/秒,处理图像文件是0.67张/秒。按官方的计费标准算下来,0.2元就能处理百万Tokens的识别任务。1元钱大概可以搞定2000张A4尺寸的扫描文档或者200份10页标准PDF文件。 这次发布是我国人工智能基础软件自主创新的又一成果。它不仅性能强、适应场景多,还特别容易部署。这种“小模型、大作为”的路子给我们提供了很好的借鉴。随着开源生态越来越好和应用场景越来越广,这项技术有望在智慧办公、数字档案还有教育科研领域发挥更大的作用。