PaddleOCR-VL
Coarse-to-Fine Visual Processing — 粗到细文档解析新范式
文档解析领域的效率革命。PaddleOCR-VL 提出了一种粗到细(Coarse-to-Fine)的两阶段框架, 核心观察是:文档图像中存在大量视觉冗余区域——PPT 中有效区域仅占约 39%, 即便是信息密集的报纸也只占约 60%。通过先定位有效区域再精细识别的策略, 仅用 0.9B 参数和 2485 视觉 tokens, 就超越了所有 72B 级别的通用 VLM 和专用模型, 在 OmniDocBench v1.5 上取得了 92.62 的综合得分。
0.9B
参数量
92.62
OmniDocBench v1.5 综合得分
2485
视觉 Tokens(最少)
109
支持语言数
Figure 1. PaddleOCR-VL 以最少的视觉 tokens 和参数在 OmniDocBench v1.5 上取得 SOTA 性能
🔬 研究背景与动机
为什么需要粗到细的文档解析?
核心观察:文档图像中的视觉冗余
文档解析是一项细粒度任务,图像分辨率对性能有重大影响。高分辨率输入虽能提升精度,
但会导致视觉 token 数量呈二次方增长,计算成本大幅上升。
关键洞察:文档图像中有效视觉区域平均不到 50%。PPT 文档中仅约 39%, 报纸约 60%。直接处理整张大图是极其低效的。
关键洞察:文档图像中有效视觉区域平均不到 50%。PPT 文档中仅约 39%, 报纸约 60%。直接处理整张大图是极其低效的。
现有方法的三大困境
| 方法类别 | 代表工作 | 主要问题 |
|---|---|---|
| 管线式(Pipeline) | Marker, MinerU | 误差传播,复杂逻辑处理困难 |
| 通用 VLM | GPT-4o, Qwen2.5-VL, Gemini | 幻觉、识别错误、阅读顺序混乱、计算开销大 |
| 专用 VLM | Dolphin, dots.ocr, MinerU2.5 | 坐标漂移、长文档效率瓶颈、统一压缩损害精度 |
Figure 2. 端到端 VLM 与 PaddleOCR-VL 的架构对比:各类文档中有效区域平均不到 50%,
通过丢弃冗余区域实现效率提升
🏗️ 方法:粗到细两阶段架构
将计算资源集中到语义相关区域,抑制冗余区域
Figure 3. PaddleOCR-VL 总体架构:VRFM 提取有效区域并预测阅读顺序 → PaddleOCR-VL-0.9B 精细识别 → 结构化输出
1
第一阶段:有效区域聚焦模块(VRFM)
Valid Region Focus Module — 轻量级布局分析
VRFM 的两大核心任务:
区域检测:基于 RT-DETR 架构,定位并分类文档中的语义区域(文本、表格、公式、图表等)
阅读顺序预测:集成指针网络(Pointer Network),利用 Relation-DETR 的几何偏置捕获空间关系, 计算 N×N 的成对排序分数矩阵,通过"胜场累积"(win-accumulation)解码算法生成一致的阅读顺序
训练策略:
• 先训练 RT-DETR 核心进行布局检测(100 epochs,PP-DocLayout Plus-L 权重初始化)
• 再冻结核心只训练指针网络(200 epochs,Generalized Cross Entropy Loss + AdamW)
区域检测:基于 RT-DETR 架构,定位并分类文档中的语义区域(文本、表格、公式、图表等)
阅读顺序预测:集成指针网络(Pointer Network),利用 Relation-DETR 的几何偏置捕获空间关系, 计算 N×N 的成对排序分数矩阵,通过"胜场累积"(win-accumulation)解码算法生成一致的阅读顺序
训练策略:
• 先训练 RT-DETR 核心进行布局检测(100 epochs,PP-DocLayout Plus-L 权重初始化)
• 再冻结核心只训练指针网络(200 epochs,Generalized Cross Entropy Loss + AdamW)
Figure 4. VRFM 架构:RT-DETR 检测布局元素 + 指针网络预测阅读顺序
2
第二阶段:元素识别(PaddleOCR-VL-0.9B)
紧凑而强大的 0.9B 视觉语言模型
架构三大组件:
视觉编码器:NaViT 风格,初始化自 Keye-VL,支持原生动态分辨率处理——避免图像缩放造成的失真和幻觉
投影器:2 层 MLP + GELU 激活,高效桥接视觉和语言模态
语言模型:ERNIE-4.5-0.3B,增强 3D-RoPE 位置表示
关键优势:NaViT 风格的原生动态分辨率处理,直接在原始分辨率上处理图像, 避免了传统固定分辨率或 tiling 方法带来的信息损失, 在文本密集型任务上表现尤为出色。
视觉编码器:NaViT 风格,初始化自 Keye-VL,支持原生动态分辨率处理——避免图像缩放造成的失真和幻觉
投影器:2 层 MLP + GELU 激活,高效桥接视觉和语言模态
语言模型:ERNIE-4.5-0.3B,增强 3D-RoPE 位置表示
关键优势:NaViT 风格的原生动态分辨率处理,直接在原始分辨率上处理图像, 避免了传统固定分辨率或 tiling 方法带来的信息损失, 在文本密集型任务上表现尤为出色。
3
大规模数据集建设
超过 3000 万样本的系统化数据管线
四大数据来源:
• 开源数据集:CASIA-HWDB、UniMER-1M、MathWriting、ChartQA 等
• 合成数据:XeLaTeX 和浏览器渲染工具针对数据不平衡问题生成
• 网络爬取:学术论文、报纸、手写扫描件等
• 内部数据集:多年 OCR 研究积累
自动标注管线:
PP-StructureV3 生成伪标签 → ERNIE-4.5-VL / Qwen2.5VL 精修 → 幻觉过滤
困难样本挖掘:
构建细粒度评估集 → 识别模型弱点 → 利用渲染工具针对性合成高质量数据
• 开源数据集:CASIA-HWDB、UniMER-1M、MathWriting、ChartQA 等
• 合成数据:XeLaTeX 和浏览器渲染工具针对数据不平衡问题生成
• 网络爬取:学术论文、报纸、手写扫描件等
• 内部数据集:多年 OCR 研究积累
自动标注管线:
PP-StructureV3 生成伪标签 → ERNIE-4.5-VL / Qwen2.5VL 精修 → 幻觉过滤
困难样本挖掘:
构建细粒度评估集 → 识别模型弱点 → 利用渲染工具针对性合成高质量数据
4
两阶段训练流程
从预训练对齐到指令微调
| 配置项 | Stage 1: 预训练对齐 | Stage 2: 指令微调 |
|---|---|---|
| 样本量 | 29M | 2.7M |
| 最大分辨率 | 1280×28×28 | 2048×28×28 |
| 序列长度 | 16384 | 16384 |
| 学习率 | 5×10⁻⁵ → 5×10⁻⁶ | 5×10⁻⁶ → 5×10⁻⁷ |
| Epoch | 1 | 2 |
微调任务:OCR 文本识别 | 表格解析(OTSL 格式)| 公式转 LaTeX | 图表数据提取
📊 页面级评估结果
OmniDocBench v1.5 — 全面超越所有竞品
OmniDocBench v1.5 综合排名
| 模型 | 类型 | 参数量 | 视觉 Tokens | Overall↑ | Text Edit↓ | Formula CDM↑ | Table TEDS↑ |
|---|---|---|---|---|---|---|---|
| GPT-4o | 通用 VLM | - | - | 75.02 | 0.217 | 79.70 | 67.07 |
| Qwen2.5-VL-72B | 通用 VLM | 72B | 5626 | 87.02 | 0.094 | 88.27 | 82.15 |
| Gemini-2.5 Pro | 通用 VLM | - | - | 88.03 | 0.075 | 85.82 | 85.71 |
| dots.ocr | 专用 VLM | 3B | 5513 | 88.41 | 0.048 | 83.22 | 86.78 |
| MinerU2.5 | 专用 VLM | 1.2B | 3256 | 90.67 | 0.047 | 88.46 | 88.22 |
| PaddleOCR-VL-S | 专用 VLM | 0.9B | 1829 | 91.55 | 0.035 | 90.30 | 87.89 |
| PaddleOCR-VL-M | 专用 VLM | 0.9B | 2259 | 92.17 | 0.035 | 90.22 | 89.75 |
| PaddleOCR-VL-L | 专用 VLM | 0.9B | 2485 | 92.62 | 0.035 | 90.90 | 90.48 |
关键亮点:
• 仅 0.9B 参数和 2485 视觉 tokens,综合得分 92.62,超越所有 72B 级别通用 VLM 和专用模型
• 文本识别编辑距离最低(0.035),公式 CDM 最高(90.90),表格 TEDS 最高(90.48)
• 阅读顺序编辑距离最低(0.043)
• S/M/L 三个配置使用同一模型权重,仅视觉 token 数量不同
🎯 元素级评估结果
文本、表格、公式、图表——全面领先
文本识别:几乎所有文档类型中最低错误率
在 OmniDocBench-OCR-block(17,148 个文本块)上的评估:
| 模型 | PPT | 学术文献 | 书籍 | 彩色教材 | 试卷 | 杂志 | 报纸 | 笔记 | 研究报告 |
|---|---|---|---|---|---|---|---|---|---|
| Qwen2.5-VL-72B | 0.054 | 0.023 | 0.061 | 0.084 | 0.195 | 0.032 | 0.056 | 0.118 | 0.040 |
| MinerU2.5 | 0.195 | 0.089 | 0.111 | 0.234 | 0.194 | 0.147 | 0.056 | 0.142 | 0.094 |
| PaddleOCR-VL-L | 0.049 | 0.021 | 0.047 | 0.082 | 0.115 | 0.020 | 0.035 | 0.077 | 0.031 |
表格识别:Overall TEDS 0.9046
| 模型 | Overall TEDS↑ | Structural TEDS↑ | Overall Edit Dist↓ |
|---|---|---|---|
| dots.ocr | 0.8194 | 0.8442 | 0.1508 |
| MinerU2.5 | 0.9005 | 0.9539 | 0.0693 |
| PaddleOCR-VL-L | 0.9046 | 0.9420 | 0.0681 |
公式识别:CDM 0.9404(SOTA)
| 模型 | Overall CDM↑ | EN CDM↑ | ZH CDM↑ |
|---|---|---|---|
| Qwen2.5-VL-72B | 0.8747 | 0.9574 | 0.7920 |
| MinerU2.5 | 0.9187 | 0.9751 | 0.8623 |
| PaddleOCR-VL-L | 0.9404 | 0.9773 | 0.9035 |
中文公式 CDM 达 0.9035,较 MinerU2.5 提升 4.12 个百分点,展现强大的中文公式识别能力。
图表识别:RMS-F1 0.8440,超越 72B 模型
| 模型 | Overall RMS-F1↑ | EN | ZH |
|---|---|---|---|
| Qwen2.5-VL-72B | 0.7300 | 0.6972 | 0.7464 |
| PP-StructureV3 | 0.8060 | 0.7963 | 0.8109 |
| PaddleOCR-VL-L | 0.8440 | 0.8222 | 0.8549 |
⚡ 推理性能
单张 NVIDIA A100 GPU 上的端到端推理对比
推理速度与显存对比
| 模型 | 总时间 (s)↓ | 页/秒↑ | Tokens/秒↑ | 显存 (GB)↓ |
|---|---|---|---|---|
| dots.ocr | 2784.6 | 0.35 | 532.9 | 78.5 |
| MonkeyOCR-pro-1.2B | 1456.4 | 0.67 | 1120.3 | 75.5 |
| MinerU2.5 | 927.3 | 1.06 | 1647.9 | 41.9 |
| PaddleOCR-VL-L | 605.2 | 1.62 | 2470.7 | 42.1 |
效率优势:
• 比 MinerU2.5 快 53%(页吞吐量 1.62 vs 1.06)
• Token 吞吐量高 50%(2470.7 vs 1647.9)
• 显存使用相当(42.1 GB vs 41.9 GB)
• 比 dots.ocr 快 4.6 倍,显存节省约 46%
53%
比 MinerU2.5 吞吐量提升
4.6x
比 dots.ocr 速度提升
42.1 GB
显存占用(A100)
30M+
训练样本数量
🌟 核心贡献总结
1. 粗到细的文档解析范式
通过 VRFM 先定位有效区域再精细识别,实现了高分辨率精度与计算效率的平衡。
这一范式的核心洞察——文档图像中的视觉冗余——为文档解析开辟了全新的优化方向。
2. 解耦两阶段架构
VRFM(轻量布局分析 + 阅读顺序预测)+ PaddleOCR-VL-0.9B(精细元素识别),
各阶段独立优化。这种层次化设计让每个模块都能专注于自己最擅长的任务,
避免了端到端模型中常见的多任务冲突问题。
3. 全面 SOTA 性能
在多个公开和内部基准测试上全面领先:文本、公式、表格、图表识别均达到最优。
支持 109 种语言,在手写体和历史文档等困难场景下表现稳健。
4. 极致效率
0.9B 参数量 — 最少视觉 tokens — 最快推理速度 — 最低显存占用。
证明了在文档解析领域,精巧的架构设计可以战胜暴力堆参数的方法。
🔑 关键技术洞察
核心技术要点
1. 视觉信息分布的不均匀性
利用文档图像中有效区域平均不到 50% 的特性,通过丢弃冗余区域实现效率提升。 这是一个简单但极其有效的洞察。
2. NaViT 风格的原生动态分辨率
避免图像缩放造成的信息损失,直接在原始分辨率上处理, 对小字体、密集文本等场景尤为关键。
3. 指针网络 + 几何偏置的阅读顺序预测
将阅读顺序建模为成对排序问题,通过 N×N 矩阵和胜场累积解码, 优雅地处理了复杂布局中的阅读顺序问题。
4. 系统化的数据管线
多源数据采集 → 自动标注(伪标签 + 大模型精修 + 幻觉过滤)→ 困难样本挖掘与合成。 数据质量是模型性能的核心因素之一。
利用文档图像中有效区域平均不到 50% 的特性,通过丢弃冗余区域实现效率提升。 这是一个简单但极其有效的洞察。
2. NaViT 风格的原生动态分辨率
避免图像缩放造成的信息损失,直接在原始分辨率上处理, 对小字体、密集文本等场景尤为关键。
3. 指针网络 + 几何偏置的阅读顺序预测
将阅读顺序建模为成对排序问题,通过 N×N 矩阵和胜场累积解码, 优雅地处理了复杂布局中的阅读顺序问题。
4. 系统化的数据管线
多源数据采集 → 自动标注(伪标签 + 大模型精修 + 幻觉过滤)→ 困难样本挖掘与合成。 数据质量是模型性能的核心因素之一。
总结
PaddleOCR-VL 以一种优雅的方式解决了文档解析中的效率与精度矛盾。其核心思想——
文档图像中的视觉信息是稀疏分布的,应该将计算资源集中在真正有用的区域——
看似朴素,却带来了全面的性能飞跃。
仅 0.9B 参数的模型超越了 72B 级别的通用 VLM,这有力地证明了: 在垂直领域,精巧的架构设计 + 高质量的数据 + 正确的归纳偏置, 远比简单堆砌参数更加高效。 这一思路对整个 VLM 领域都有重要的启示意义。
仅 0.9B 参数的模型超越了 72B 级别的通用 VLM,这有力地证明了: 在垂直领域,精巧的架构设计 + 高质量的数据 + 正确的归纳偏置, 远比简单堆砌参数更加高效。 这一思路对整个 VLM 领域都有重要的启示意义。
PaddleOCR-VL: Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing