场景文字识别能力超强,端到端把歪扭的路牌快速变成数字资产。北京师范大学-香港浸会大学联合国际学院

场景文字识别能力超强,端到端把歪扭的路牌快速变成数字资产。北京师范大学-香港浸会大学联合国际学院的团队在广东省大学生计算机设计大赛人工智能应用赛道中,给“光学字符识别(OCR)”带来了新花样。他们自己开发的端到端框架在公共数据集上把不规则文字的识别准确率提升到90%以上,直接拿下了省赛二等奖。 为什么现实中的场景文字这么难识别呢?传统OCR通常只能处理正规、工整的文档。可生活中随处可见的路牌、广告、菜单往往带有阴影、透视扭曲还有低像素。这些“野路子”图片让注意力机制容易出错——解码器一旦搞错了焦点,后续特征全乱套了。团队提供的解决方案是先把图像矫正,再进行识别。第一步,用矫正网络把弯曲、歪斜的字符拉直,让识别网络感觉在处理工整的文档一样,准确率一下就上去了。第二步,采用CNN、BiLSTM和注意力机制组成的识别网络。底层用ResNet提取特征,中间层用BiLSTM进行序列建模,顶层再加一层带注意力的解码器。这个架构基于经典的CRNN框架,但把Mixup思想融入训练循环中,提高了模型的鲁棒性。模型实测成绩非常亮眼:IIIT5K达到了90.6%,SVT是85.1%,ICDAR2003是93.4%,ICDAR2013是91.6%,ICDAR2015是69.3%,SVT-Perspective是76.4%,CUTE80是74.3%。 在各种复杂场景下,比如低像素、弯曲还有透视畸变等,这个模型依然能保持高精度输出。模型已被打包成独立程序,操作简单,小白也能轻松使用。更重要的是,它支持端到端微调,可以同时进行检测与识别训练,节省计算资源和特征复用。同时还支持跨平台部署,x86服务器、ARM板卡还有安卓手机都能跑起来。未来将把这套框架应用在自动驾驶和服务机器人上,让AI真正“看懂”世界。