百度千帆端到端模型:40亿个参数就把文档智能解析、版面分析、文字识别和语义理解这几样活儿给

百度最近把自家那个叫千帆Qianfan-OCR的端到端模型给推出来了,居然只用40亿个参数就把文档智能解析、版面分析、文字识别和语义理解这几样活儿给融合到一块儿了。这模型在不少测试里成绩都挺亮眼,直接宣告了文档智能技术从之前分好几步干的老路子转向了统一架构的大方向。 在核心的基准测试里,它表现得尤为出色。特别是在OmniDocBench v1.5这个评测里拿到了93.12分的高分,端到端模型里排名第一。跟其他的通用视觉语言模型和专业的OCR模型比起来,它在OCRBench上也能稳稳胜出。 说到关键信息提取(KIE)这块儿,它在好几个榜单上的总分都比Google Gemini 3-Pro这些国际大牌还高,竞争力实在是太强了。就连图表理解这种复杂的场景它也拿下了不少好成绩。在ChartQA和ChartBench等6个国际权威评测里,它甚至包揽了5个最佳成绩。它能搞定那些混着表格和图表的复杂内容,对做金融报表和科研论文的人来说特别实用。 传统的OCR系统通常都是先检测再识别最后加个大模型,这种串联方式容易出错,还会把原始文档里的空间结构搞乱。比如复杂表格的行列关系或者图表的坐标对应啥的,经常会理解错。 Qianfan-OCR可不一样,它用新的底层架构搞了个端到端的视觉语言模型。这个模型直接从图像里生成结构化的输出,把视觉信息和空间关系都保留得好好的,实现了从像素到语义的直接映射。这种做法不光让效率变高了,推理的精度也上去了,把老方案的毛病都给治好了。 现在这个模型已经在百度千帆平台上敞开了门,还在HuggingFace上把权重开源出来了。开发者和企业都能用它来做金融、医疗、教育这些领域的智能处理,推动大家往数字化的路上跑。