百度近日开源其最新OCR模型PaddleOCR-VL,以仅0.9B参数在OmniDocBench v1.5评测中达到SOTA水平。
PaddleOCR项目为百度长期维护的开源OCR框架,自2020年起持续迭代,目前在GitHub上拥有超60K星标,位居同类项目首位。
PaddleOCR-VL是该系列首次将大模型应用于文档解析核心环节,采用两阶段架构提升识别效率与精度。
第一阶段由专用视觉模型PP-DocLayoutV2完成布局分析,快速定位图像中的标题、正文、表格、公式等区域,并标注符合人类阅读顺序的序号。
第二阶段由0.9B的PaddleOCR-VL模型对裁剪后的局部图像进行分块识别,针对不同区域类型分别输出Markdown、LaTeX等格式结果。
该架构避免了通用多模态大模型端到端处理整页文档时面临的复杂上下文理解与幻觉问题,显著提升准确率。
在扫描件、手写笔记、多栏排版论文、票据及复杂表格等场景下,PaddleOCR-VL均表现出高准确度。
实测显示,其对模糊扫描PDF可完整还原内容且无文字错误;对手写字迹清晰的笔记识别效果稳定;对多栏报纸类密集排版能正确解析阅读顺序。
对于包含合并单元格、无框线等复杂结构的大型表格,模型能准确识别单元格内容并还原行列关系。
在半结构化票据识别中,可有效提取机打字、数字、手写信息及盖章区域的关键字段,表现优于多数同类模型。
对比DeepSeek-OCR在OmniDocBench v1.5上的综合得分86.46,PaddleOCR-VL得分为92.56,领先约6个百分点。
尽管两者技术路径不同,PaddleOCR-VL凭借垂直优化在纯OCR任务中展现出更高准确性与性价比。
该模型已通过GitHub开源发布,支持本地部署,部署教程详见PaddleOCR官方仓库。
暂未提供开箱即用的Windows整合包,用户可通过飞桨AI Studio、魔搭ModelScope或Hugging Face平台体验在线Demo版本。
PaddleOCR-VL的技术路径体现了在特定领域通过架构创新实现高效精准的工程化思路,为文档解析提供了新的解决方案。
免责声明:本文内容由开放的智能模型自动生成,仅供参考。



