高达82 fps的实时文本检测，华科AAAI2020提出可微分二值化模块

2024-04-19 06:30:20

今天跟大家分享一篇近几天公布的关于实时场景文本检测的论文Real-time Scene Text Detection with Differentiable Binarization，出自华科白翔老师组，已中AAAI 2020 Oral，其在多个数据集上都取得了目前最好的精度，而且非常快，在输入图像size为512的设置下，可以实现高达82 fps的检测！

该文作者信息：

作者分别来自华中科技大学、旷视科技、上海交通大学、Onlyou Tech。

下图为该算法在 MSRA-TD500 上的与其他SOTA算法检测速度和F-measure比较的结果：

其在精度上超越了CVPR 2019 新出的CRAFT，而速度却快好几倍！

算法原理

在将图像分割应用于文本检测时，需要对分本分割的结果，进行二值化，二值化后得到的二值 mask ，标示了文本区域，如下图中蓝色箭头线标示的过程。

在以往的基于分割的文本检测算法中，二值化的过程是使用人工设置的阈值，使得得到mask的过程并不是端到端的，该文作者的出发点是要将二值化纳入整个网络的训练。

如上图中的红色箭头线标示的流程，该文算法在训练时会预测出分割图和阈值图，再根据二者自动二值化，得到二值mask。

算法的整体流程如下：

输入图像经过特征金字塔网络，将不同分辨率的特征上采样到同一分辨率，再并联起来即得到特征图，特征图分别通过2个“pred”操作（一个卷积+2个反卷积）得到概率图和阈值图，然后经过DB（可微分二值化模块），得到近似二值图，对近似二值图简单后处理，即可把文本区域提取出来。

其中最关键的问题是，如何实现二值化操作可微？只有可微分的函数才能加入网络中实现端到端训练。

标准的二值化函数表达式如下：

作者的做法是使用其近似函数：

下图展示了此两个函数的曲线：

的确是很接近的，而且该函数可微分。

其对应的正负样本的损失和相应的梯度函数分别为：

作者在训练时，概率图、阈值图、近似二值图均有监督信息指导训练，且概率图和阈值图使用相同的监督信息。

近似二值图的监督信息可以使用文本图像标注信息方便得到，而概率图和阈值图的标签则借鉴PSENet的方法生成。

如下图展示了这一过程：

红色实线多边形为人工标注的文本边界框，其内部蓝色虚线为按照一定的系数红色多边形向内部收缩的结果，其包围的区域设为1即概率图的标签；而外部绿色虚线则为人工标注的文本边界框按照一定系数向外膨胀的结果，收缩和膨胀的中间区域，依据距离人工标注的远近，生成平滑的阈值图。

网络推断时，为得到更高的fps，仅使用了概率图生成近似二值图，但作者实验显示，在训练时加上阈值图的监督信息，能显著改进检测结果。

另外，作者在网络中的部分层还使用了可变形卷积，其在极端长宽比的文本实例图像中会使得结果更好。

实验结果

作者首先在 MSRA-TD500 和 CTW 1500 数据集上验证了使用DB（可微分二值模块）和DConv（可变形卷积）可大幅提高文本检测精度。

而使用阈值图也使得网络取得了一致的精度增益，如下：

然后作者在几个主流文本检测数据集上与SOTA方法进行了比较：

可见，该文提出的方法在取得更高精度的同时，速度也难能可贵的快！在MSRA-TD500 数据集上图像高为512时达到82 fps！怪不得被AAAI 2020 录用为Oral。

以下为检测文本结果示例：

每个子图中右上为阈值图，右下为概率图。

该文提出的可微分二值化模块和相应的标签生成与训练方法，显著改进了文本检测的精度，而且比近期的SOTA算法速度快几倍，非常值得大家参考，而且作者称代码也将开源！

论文地址：

https://arxiv.org/abs/1911.08947

代码地址：

https://github.com/MhLiao/DB

【第二期】20篇强化学习论文总结（附下载链接）

前段时间,我们为大家整理了105篇强化学习论文的综述及列表(点击获取). 为了方便大家学习,我们将会出5期强化学习的论文总结,每期会有20篇左右的论文,在每周一发布,敬请关注. 目前已出了[第一期]2 ...
机器视觉定位技术之产品边缘轮廓检测

PLC电气自动化 PLC实用干货.编程技巧,一触即达! 3篇原创内容公众号 ▲点击关注,学习PLC 边缘是指图像局部亮度变化最显著的部分.边缘主要存在于目标与目标.目标与背景.区域与区域之间,是图像 ...
利用边缘检测计算物体面积（内含源码）

在农业中,通常希望获取不同土地的面积.虽然获取这些土地的面积操作相对容易,但是却涉及高额的费用.另外,如果对于不规则形状的土地,测量土地面积的大小就变得相对困难. 幸运的是,有大量以卫星图像的形式公开 ...
【学术论文】基于最小二乘法与霍夫变换的虹膜定位算法

摘要为解决定位虹膜内外边缘时因轮廓信息不足会出现的定位不准确或者失败问题,提出一种采用霍夫变换与最小二乘法相结合的定位算法.首先使用形态学开操作减少图像中孤立的小点,并利用自适应阈值算法二值化图像: ...
【时间序列】时间序列异常检测相关知识的总结与梳理

异常检测(Anomaly detection)是目前时序数据分析最成熟的应用之一,定义是从正常的时间序列中识别不正常的事件或行为的过程.有效的异常检测被广泛用于现实世界的很多领域,例如量化交易,网络安 ...
预测心脏病，准确率高达82%，如此检测就可以了！

预测心脏病，准确率高达82%，如此检测就可以了！
【OCR技术系列之六】文本检测CTPN的代码实现

这几天一直在用Pytorch来复现文本检测领域的CTPN论文,本文章将从数据处理.训练标签生成.神经网络搭建.损失函数设计.训练主过程编写等这几个方面来一步一步复现CTPN.CTPN算法理论可以参考这 ...
【OCR技术系列之五】自然场景文本检测技术综述（CTPN, SegLink, EAST）

文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别.今天我们首先来谈一下当今流行的文字检测技术有哪些. 文本检测不是一件简 ...
世界上最大的船只，排水量高达82万吨，相当于8艘福特号航母

福特号是美国研制的世界上最大的航母,吨位足足有11万吨.然而福特号航母并不是世界上最大的船只,其实很多油轮的吨位都是远远超过航母的. 世界上最大的船只是新加坡的诺克·耐维斯号,这是一艘超大型的原油运输 ...
MT：用于场景文本检测的多视角特征学习网络

重磅干货,第一时间送达小黑导读论文是学术研究的精华和未来发展的明灯.小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
甲状腺微小癌淋巴转移高达82.0%，被认为治疗过度？再谈甲癌的过度治疗

今天聊聊甲状腺癌治疗过度的问题! 目前,国内外指南并没有明确规定哪种恶性结节不能手术治疗,绝大多数甲状腺恶性肿瘤也需首选手术:但国内外对包括甲状腺癌在内的甲状腺结节患者的干预中存在一些可能过度治疗的情 ...
YOLObile:面向移动设备的「实时目标检测」算法

作者提出了一种通过从压缩.编译两个角度,在保证模型准确率的基础上,减小模型的大小,并提升模型在移动设备端的运行速度. 通过所提出的YOLObile framework,将YOLOv4压缩了14倍,准确 ...
基于OpenCV的视障人士实时目标检测

重磅干货,第一时间送达一.概述计算机视觉领域一直是一个活跃的研究领域,在本文中,我们让设备实时与其应用程序(对象检测)相结合并运行. 二.硬件设备:程序将在其上运行,由于该设备将安装在手杖上,并 ...
VB开发的设备实时运行状态检测系统

今天来看一下用VB编程开发完成的判断各设备运行状态的系统. 运行正常,绿灯表示: 运行异常,红灯警告. 用于实际生产中,可以快速定位问题所在,提高处理效率. 程序运行图 VB编程简单易学.功能强大,广 ...

高达82 fps的实时文本检测，华科AAAI2020提出可微分二值化模块

相关推荐