三年磨一剑——微信OCR轻松提取图片文字
伍敏慧 腾讯技术工程 4天前
![](http://n4.ikafan.com/assetsj/blank.gif)
导语
一、背景
![](http://n4.ikafan.com/assetsj/blank.gif)
二、难点与挑战
1. 如何判断图像中是否存在文字?
2. 如何判断文本图像的类别?
3. 如何优化通用识别算法,达到效果和效率的平衡?
4. 如何进行版面分析?
三、文字提取整体解决方案
![](http://n4.ikafan.com/assetsj/blank.gif)
1. 快速文字判定
快速判断图像中是否存在中英文本;
兼容长按翻译,同时需要判断文本中的文本语种;
移动端部署,速度和模型大小要求高。
图片复杂,分类准确率低;
文本占比小,存在误判;
图片中可能存在多语种,语种之间有相似性;
无法确定各语种的文本在图像中区域和所占的比例。
2. 文本图像分类
![](http://n4.ikafan.com/assetsj/blank.gif)
![](http://n4.ikafan.com/assetsj/blank.gif)
采用box回归的方法主要有CTPN、Textbox系列和EAST,这类算法对规则形状文本检测效果较好,但无法准确检测不规则形状文本,对过长文本效果也不太好。
像素值回归的方法主要有CRAFT和SA-Text,这类算法能够检测弯曲文本且对小文本效果优秀但是实时性能不够。
通用场景复杂,文字多样,各种字体和风格的文字都可能存在,数据难以采集;
生僻字问题,字符不均衡;
相似字问题。
TextRender 合成文本行识别数据;
StyleText 合成文本行识别数据。
数据标注困难;
部署:模型大小 + 耗时;
泛化性不够:依赖训练数据;
解决badcase需重训模型,不够灵活。
依赖写好的规则;
快速修复badcase;
耗时小,部署简单。
![](http://n4.ikafan.com/assetsj/blank.gif)
![](http://n4.ikafan.com/assetsj/blank.gif)
四、总结与展望
参考文献
1、Edit Text in the Wild, Liang Wu, Chengquan Zhang, Jiaming Liu, Junyu Han, Jingtuo Liu, Errui Ding, Xiang Bai ,ACM MM2019
2、Learn to Augment: Joint Data Augmentation and Network Optimization for Text Recognition, Luo.C; Zhu,Y; and Wang,Y ,CVPR 2020
3、Real-time Scene Text Detection with Differentiable Binarization,Minghui Liao, Zhaoyi Wan, Cong Yao, Kai Chen, Xiang Bai, AAAI 2020
4、EAST: An Efficient and Accurate Scene Text Detector,Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, Jiajun Liang,CVPR 2017
5、ASTER: An Attentional Scene Text Recognizer with Flexible Rectification,Baoguang Shi, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Ba, PAMI 2018
6、Aggregation Cross-Entropy for Sequence Recognition. Zecheng Xie, Yaoxiong Huang, Yuanzhi Zhu, Lianwen Jin, Yuliang Liu and Lele Xie. CVPR. 2019
7、Synthetic Data for Text Localisation in Natural Images, Ankush Gupta, Andrea Vedaldi, Andrew Zisserman, CVPR 2016.
8、Detecting Oriented Text in Natural Images by Linking Segments,Baoguang Shi, Xiang Bai, Serge Belongie, CVPR 2017
9、TextBoxes++: A Single-Shot Oriented Scene Text Detector, Minghui Liao, Baoguang Shi, Xiang Bai,AAAI2018
10、Shape Robust Text Detection with Progressive Scale Expansion Network,Wenhai Wang, Enze Xie, Xiang Li, Wenbo Hou, Tong Lu, Gang Yu, Shuai Shao,CVPR 2019
11、IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection, Qiangpeng Yang, Mengli Cheng et al. IJCAI 2018
12、PixelLink: Detecting Scene Text via Instance Segmentation,Dan Deng, Haifeng Liu, Xuelong Li, Deng Cai,AAAI-2018
13、Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network,Wenhai Wang, Enze Xie, Xiaoge Song, Yuhang Zang,ICCV 2019
14、Detecting Text in Natural Image with Connectionist Text Proposal Network,Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao, ECCV 2016
15、Deep Mutual Learning,Ying Zhang, Tao Xiang, Timothy M. Hospedales, Huchuan Lu,CVPR 2018
周四晚腾讯程序员视频号直播:
![](http://n4.ikafan.com/assetsj/blank.gif)
![](http://n4.ikafan.com/assetsj/blank.gif)
腾讯程序员
03月25日 19:30 直播
已结束
视频号