PaddleOCR-VL

Coarse-to-Fine Visual Processing — 粗到细文档解析新范式

文档解析领域的效率革命。PaddleOCR-VL 提出了一种粗到细（Coarse-to-Fine）的两阶段框架，核心观察是：文档图像中存在大量视觉冗余区域——PPT 中有效区域仅占约 39%，即便是信息密集的报纸也只占约 60%。通过先定位有效区域再精细识别的策略，仅用 0.9B 参数和 2485 视觉 tokens，就超越了所有 72B 级别的通用 VLM 和专用模型，在 OmniDocBench v1.5 上取得了 92.62 的综合得分。

0.9B

参数量

92.62

OmniDocBench v1.5 综合得分

2485

视觉 Tokens（最少）

109

支持语言数

PaddleOCR-VL 在 OmniDocBench v1.5 上取得 SOTA

Figure 1. PaddleOCR-VL 以最少的视觉 tokens 和参数在 OmniDocBench v1.5 上取得 SOTA 性能

🔬 研究背景与动机

为什么需要粗到细的文档解析？

核心观察：文档图像中的视觉冗余

文档解析是一项细粒度任务，图像分辨率对性能有重大影响。高分辨率输入虽能提升精度，但会导致视觉 token 数量呈二次方增长，计算成本大幅上升。

关键洞察：文档图像中有效视觉区域平均不到 50%。PPT 文档中仅约 39%，报纸约 60%。直接处理整张大图是极其低效的。

现有方法的三大困境

方法类别	代表工作	主要问题
管线式（Pipeline）	Marker, MinerU	误差传播，复杂逻辑处理困难
通用 VLM	GPT-4o, Qwen2.5-VL, Gemini	幻觉、识别错误、阅读顺序混乱、计算开销大
专用 VLM	Dolphin, dots.ocr, MinerU2.5	坐标漂移、长文档效率瓶颈、统一压缩损害精度

Figure 2. 端到端 VLM 与 PaddleOCR-VL 的架构对比：各类文档中有效区域平均不到 50%，通过丢弃冗余区域实现效率提升

🏗️ 方法：粗到细两阶段架构

将计算资源集中到语义相关区域，抑制冗余区域

Figure 3. PaddleOCR-VL 总体架构：VRFM 提取有效区域并预测阅读顺序 → PaddleOCR-VL-0.9B 精细识别 → 结构化输出

第一阶段：有效区域聚焦模块（VRFM）

Valid Region Focus Module — 轻量级布局分析

VRFM 的两大核心任务：

区域检测：基于 RT-DETR 架构，定位并分类文档中的语义区域（文本、表格、公式、图表等）

阅读顺序预测：集成指针网络（Pointer Network），利用 Relation-DETR 的几何偏置捕获空间关系，计算 N×N 的成对排序分数矩阵，通过"胜场累积"（win-accumulation）解码算法生成一致的阅读顺序

训练策略：
• 先训练 RT-DETR 核心进行布局检测（100 epochs，PP-DocLayout Plus-L 权重初始化）
• 再冻结核心只训练指针网络（200 epochs，Generalized Cross Entropy Loss + AdamW）

Figure 4. VRFM 架构：RT-DETR 检测布局元素 + 指针网络预测阅读顺序

第二阶段：元素识别（PaddleOCR-VL-0.9B）

紧凑而强大的 0.9B 视觉语言模型

架构三大组件：

视觉编码器：NaViT 风格，初始化自 Keye-VL，支持原生动态分辨率处理——避免图像缩放造成的失真和幻觉

投影器：2 层 MLP + GELU 激活，高效桥接视觉和语言模态

语言模型：ERNIE-4.5-0.3B，增强 3D-RoPE 位置表示

关键优势：NaViT 风格的原生动态分辨率处理，直接在原始分辨率上处理图像，避免了传统固定分辨率或 tiling 方法带来的信息损失，在文本密集型任务上表现尤为出色。

大规模数据集建设

超过 3000 万样本的系统化数据管线

四大数据来源：
• 开源数据集：CASIA-HWDB、UniMER-1M、MathWriting、ChartQA 等
• 合成数据：XeLaTeX 和浏览器渲染工具针对数据不平衡问题生成
• 网络爬取：学术论文、报纸、手写扫描件等
• 内部数据集：多年 OCR 研究积累

自动标注管线：
PP-StructureV3 生成伪标签 → ERNIE-4.5-VL / Qwen2.5VL 精修 → 幻觉过滤

困难样本挖掘：
构建细粒度评估集 → 识别模型弱点 → 利用渲染工具针对性合成高质量数据

两阶段训练流程

从预训练对齐到指令微调

配置项	Stage 1: 预训练对齐	Stage 2: 指令微调
样本量	29M	2.7M
最大分辨率	1280×28×28	2048×28×28
序列长度	16384	16384
学习率	5×10⁻⁵ → 5×10⁻⁶	5×10⁻⁶ → 5×10⁻⁷
Epoch	1	2

微调任务：OCR 文本识别 | 表格解析（OTSL 格式）| 公式转 LaTeX | 图表数据提取

📊 页面级评估结果

OmniDocBench v1.5 — 全面超越所有竞品

OmniDocBench v1.5 综合排名

模型	类型	参数量	视觉 Tokens	Overall↑	Text Edit↓	Formula CDM↑	Table TEDS↑
GPT-4o	通用 VLM	-	-	75.02	0.217	79.70	67.07
Qwen2.5-VL-72B	通用 VLM	72B	5626	87.02	0.094	88.27	82.15
Gemini-2.5 Pro	通用 VLM	-	-	88.03	0.075	85.82	85.71
dots.ocr	专用 VLM	3B	5513	88.41	0.048	83.22	86.78
MinerU2.5	专用 VLM	1.2B	3256	90.67	0.047	88.46	88.22
PaddleOCR-VL-S	专用 VLM	0.9B	1829	91.55	0.035	90.30	87.89
PaddleOCR-VL-M	专用 VLM	0.9B	2259	92.17	0.035	90.22	89.75
PaddleOCR-VL-L	专用 VLM	0.9B	2485	92.62	0.035	90.90	90.48

关键亮点：
• 仅 0.9B 参数和 2485 视觉 tokens，综合得分 92.62，超越所有 72B 级别通用 VLM 和专用模型
• 文本识别编辑距离最低（0.035），公式 CDM 最高（90.90），表格 TEDS 最高（90.48）
• 阅读顺序编辑距离最低（0.043）
• S/M/L 三个配置使用同一模型权重，仅视觉 token 数量不同

🎯 元素级评估结果

文本、表格、公式、图表——全面领先

文本识别：几乎所有文档类型中最低错误率

在 OmniDocBench-OCR-block（17,148 个文本块）上的评估：

模型	PPT	学术文献	书籍	彩色教材	试卷	杂志	报纸	笔记	研究报告
Qwen2.5-VL-72B	0.054	0.023	0.061	0.084	0.195	0.032	0.056	0.118	0.040
MinerU2.5	0.195	0.089	0.111	0.234	0.194	0.147	0.056	0.142	0.094
PaddleOCR-VL-L	0.049	0.021	0.047	0.082	0.115	0.020	0.035	0.077	0.031

表格识别：Overall TEDS 0.9046

模型	Overall TEDS↑	Structural TEDS↑	Overall Edit Dist↓
dots.ocr	0.8194	0.8442	0.1508
MinerU2.5	0.9005	0.9539	0.0693
PaddleOCR-VL-L	0.9046	0.9420	0.0681

公式识别：CDM 0.9404（SOTA）

模型	Overall CDM↑	EN CDM↑	ZH CDM↑
Qwen2.5-VL-72B	0.8747	0.9574	0.7920
MinerU2.5	0.9187	0.9751	0.8623
PaddleOCR-VL-L	0.9404	0.9773	0.9035

中文公式 CDM 达 0.9035，较 MinerU2.5 提升 4.12 个百分点，展现强大的中文公式识别能力。

图表识别：RMS-F1 0.8440，超越 72B 模型

模型	Overall RMS-F1↑	EN	ZH
Qwen2.5-VL-72B	0.7300	0.6972	0.7464
PP-StructureV3	0.8060	0.7963	0.8109
PaddleOCR-VL-L	0.8440	0.8222	0.8549

⚡ 推理性能

单张 NVIDIA A100 GPU 上的端到端推理对比

推理速度与显存对比

模型	总时间 (s)↓	页/秒↑	Tokens/秒↑	显存 (GB)↓
dots.ocr	2784.6	0.35	532.9	78.5
MonkeyOCR-pro-1.2B	1456.4	0.67	1120.3	75.5
MinerU2.5	927.3	1.06	1647.9	41.9
PaddleOCR-VL-L	605.2	1.62	2470.7	42.1

效率优势：
• 比 MinerU2.5 快 53%（页吞吐量 1.62 vs 1.06）
• Token 吞吐量高 50%（2470.7 vs 1647.9）
• 显存使用相当（42.1 GB vs 41.9 GB）
• 比 dots.ocr 快 4.6 倍，显存节省约 46%

53%

比 MinerU2.5 吞吐量提升

4.6x

比 dots.ocr 速度提升

42.1 GB

显存占用（A100）

30M+

训练样本数量

🌟 核心贡献总结

1. 粗到细的文档解析范式

通过 VRFM 先定位有效区域再精细识别，实现了高分辨率精度与计算效率的平衡。这一范式的核心洞察——文档图像中的视觉冗余——为文档解析开辟了全新的优化方向。

2. 解耦两阶段架构

VRFM（轻量布局分析 + 阅读顺序预测）+ PaddleOCR-VL-0.9B（精细元素识别），各阶段独立优化。这种层次化设计让每个模块都能专注于自己最擅长的任务，避免了端到端模型中常见的多任务冲突问题。

3. 全面 SOTA 性能

在多个公开和内部基准测试上全面领先：文本、公式、表格、图表识别均达到最优。支持 109 种语言，在手写体和历史文档等困难场景下表现稳健。

4. 极致效率

0.9B 参数量 — 最少视觉 tokens — 最快推理速度 — 最低显存占用。证明了在文档解析领域，精巧的架构设计可以战胜暴力堆参数的方法。

🔑 关键技术洞察

核心技术要点

1. 视觉信息分布的不均匀性
利用文档图像中有效区域平均不到 50% 的特性，通过丢弃冗余区域实现效率提升。这是一个简单但极其有效的洞察。

2. NaViT 风格的原生动态分辨率
避免图像缩放造成的信息损失，直接在原始分辨率上处理，对小字体、密集文本等场景尤为关键。

3. 指针网络 + 几何偏置的阅读顺序预测
将阅读顺序建模为成对排序问题，通过 N×N 矩阵和胜场累积解码，优雅地处理了复杂布局中的阅读顺序问题。

4. 系统化的数据管线
多源数据采集 → 自动标注（伪标签 + 大模型精修 + 幻觉过滤）→ 困难样本挖掘与合成。数据质量是模型性能的核心因素之一。

总结

PaddleOCR-VL 以一种优雅的方式解决了文档解析中的效率与精度矛盾。其核心思想—— 文档图像中的视觉信息是稀疏分布的，应该将计算资源集中在真正有用的区域—— 看似朴素，却带来了全面的性能飞跃。

仅 0.9B 参数的模型超越了 72B 级别的通用 VLM，这有力地证明了：在垂直领域，精巧的架构设计 + 高质量的数据 + 正确的归纳偏置，远比简单堆砌参数更加高效。这一思路对整个 VLM 领域都有重要的启示意义。

PaddleOCR-VL: Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing