GitHub 热榜：这款超硬核的 OCR 开源工具，我给 99.99 分！ / 四六文摘

一、导读

OCR 方向的工程师，之前一定听说过 PaddleOCR 这个项目，其主要推荐的 PP-OCR 算法更是被国内外企业开发者广泛应用，短短半年时间，累计 Star 数量已超过 15k，频频登上 GitHub Trending 和 Paperswithcode 日榜月榜第一，在《GitHub 2020 数字洞察报告》中被评为中国 GitHub Top20 活跃项目，称它为 OCR 方向目前最火的 repo 绝对不为过。

最近，由 PaddleOCR 原创团队，针对 PP-OCR 进行了一些经验性改进，构建了一种新的 OCR 系统，称为 PP-OCRv2。

■ 从算法改进思路上看，主要有五个方面的改进。

检测模型优化：采用 CML 协同互学习知识蒸馏策略；
检测模型优化：CopyPaste 数据增广策略；
识别模型优化：LCNet 轻量级骨干网络；
识别模型优化：UDML 改进知识蒸馏策略；
识别模型优化：Enhanced CTC loss 损失函数改进。

■ 从效果上看，主要有三个方面提升：

在模型效果上，相对于 PP-OCR mobile 版本提升超 7%；
在速度上，相对于 PP-OCR server 版本提升超过 220%；
在模型大小上，11.6M 的总大小，服务器端和移动端都可以轻松部署。

GitHub 项目: https://github.com/PaddlePaddle/PaddleOCR

注：为了照顾刚了解 PaddleOCR 的新用户，在第二、三部分简单进行一些背景介绍，熟悉 PaddleOCR 的老用户可以直接跳到第四部分。

二、PaddleOCR 历史表现回顾

✦ 2020 年 6 月，8.6M 超轻量模型发布，GitHub Trending 全球趋势榜日榜第一。

✦ 2020 年 8 月，开源 CVPR2020 顶会算法，再上 GitHub 趋势榜单！

✦ 2020 年 10 月，发布 PP-OCR 算法，开源 3.5M 超超轻量模型，再上 Paperswithcode 趋势榜第一！

✦ 2021 年 1 月，发布 Style-Text 文本合成算法和 PPOCRLabel 数据标注工具，star 数量突破 10000+，在《GitHub 2020 数字洞察报告》中被评为中国 GitHub Top20 活跃项目。

✦ 2021 年 4 月，开源 AAAI 顶会论文 PGNet 端到端识别算法，Star 突破 13k。

✦ 2021 年 8 月，开源版面分析与表格识别算法 PP-Structure，Star 突破 15k。

✦ 2021 年 9 月，发布 PP-OCRv2 算法，效果和速度再升级。

三、PaddleOCR 开源能力速览

（1）通用文本检测识别效果：支持通用场景下的 OCR 文本快速检测识别

（2）文本合成工具 Style-Text 效果：相比于传统的数据合成算法，Style-Text 可以实现特殊背景下的图片风格迁移，只需要少许目标场景图像，就可以合成大量数据，效果展示如下：

（3）半自动标注工具 PPOCRLabel：通过内置高质量的 PP-OCR 中英文超轻量预训练模型，可以实现 OCR 数据的高效标注。CPU 机器运行也是完全没问题的。用法也是非常的简单，标注效率提升 60%-80% 是妥妥的，效果演示如下：

（4）文档结构分析 + 表格提取 PP-Structure：可以对文档图片中的文本、表格、图片、标题与列表区域进行分类，还可以利用表格识别技术完整地提取表格结构信息，使得表格图片变为可编辑的 Excel 文件。

（5）核心能力全部可以自定义训练，动静统一的开发体验

动态图和静态图是深度学习框架常用的两种模式。在动态图模式下，代码编写运行方式符合 Python 程序员的习惯，易于调试，但在性能方面， Python 执行开销较大，与 C++ 有一定差距。相比动态图，静态图在部署方面更具有性能的优势。静态图程序在编译执行时，预先搭建好的神经网络可以脱离 Python 依赖，在 C++ 端被重新解析执行，而且拥有整体网络结构也能进行一些网络结构的优化。

PaddleOCR 依赖飞桨核心框架动静统一的能力，支持用户使用动态图编写组网代码。预测部署时，飞桨会对用户代码进行分析，自动转换为静态图网络结构，兼顾了动态图易用性和静态图部署性能两方面优势。

传送门：

GitHub：https://github.com/PaddlePaddle/PaddleOCR

那么最近的 2021 年 9 月份更新，PaddleOCR 又给大家带来哪些惊喜呢？

四、 PP-OCRv2 五大关键技术点深入解读：

全新升级的 PP-OCRv2 版本，整体的框架图保持了与 PP-OCR 相同的 Pipeline，如下图所示。

在优化策略方面，主要从五个角度进行了深入优化（如上图红框所示），主要包括：

■ 检测模型优化：采用 CML 知识蒸馏策略

■ 检测模型优化：CopyPaste 数据增广策略

■ 识别模型优化：LCNet 轻量级骨干网络

■ 识别模型优化：UDML 知识蒸馏策略

■ 识别模型优化：Enhanced CTC loss 改进

下面展开详细介绍：

（1）检测模型优化：采用 CML (Collaborative Mutual Learning) 协同互学习知识蒸馏策略。

如上图所示，CML 的核心思想结合了①传统的 Teacher 指导 Student 的标准蒸馏与 ②Students 网络直接的 DML 互学习，可以让 Students 网络互学习的同时，Teacher 网络予以指导。对应的，精心设计关键的三个 Loss 损失函数：GT Loss、DML Loss 和 Distill Loss，在 Teacher 网络 Backbone 为 ResNet18 的条件下，对 Student 的 MobileNetV3 起到了良好的提升效果。

（2）检测模型优化：CopyPaste 数据增广策略