MASTER：全局上下文建模大幅提高文本识别精度

2024-04-28 20:20:00

该文作者信息：

作者单位为来自国内的平安产险视觉团队和徐州医科大学。

现实中出现的规则和不规则文本示例：

该文指出，目前基于注意力机制的自然场景文字识别方法在OCR领域取得了很大成果，成功的主要原因是在RNN的框架下，基于注意力的方法可以学习到一维或者二维特征的内在表示。

但是这种基于这种局部注意力机制的方法却存在注意力漂移的问题，并且在RNN架构下模型无法高效的并行计算。

作者正是想在文本识别中引入全局注意力机制。

为了提高模型性能和缓解注意力混淆问题，本文作者（平安产险视觉团队）等人提出了一个更高效和更鲁棒的场景文本识别方法：MASTER。

MASTER包括两个核心模块：

（1）基于Multi-Aspect的全局上下文注意力机制的编码器；

（2）基于Transformer的解码器。

今年一种全局注意力模型GCNet被提出：

Y. Cao, J. Xu, S. Lin, F. Wei, and H. Hu, “GCNet: Non-local networks meet squeeze-excitation networks and beyond,” ArXiv, vol. abs/1904.11492, 2019.

其全局上下文建模模块如下：

其主要分为Context Modeling 和 Transform 两大部分，并将原始特征图与Transform输出结果融合。

该文将其用于场景文本识别的注意力建模，发现如果使用多个注意力函数，可以取得更好的结果：

其核心模块如下：

可见，创新之处在于其含有h个Context Modeling。

在解码器部分也有多处改进，主要有：

Scaled Multi-Head Dot-Product Attention
Masked Multi-Head Attention
Position-wise Feed-Forward Networn
Loss Function

MASTER架构图：（请点击查看大图）

实验结果

作者在常见评价数据集上与State-of-the-art方法进行了比较：

在 7 个数据集上有 4 个取得了当前最高的精度。

（另外3个是52CV曾经向大家重点介绍过的Mask TextSpotter：

华科白翔老师团队ECCV2018 OCR论文：Mask TextSpotter）

下表是在 COCO-text test 数据集上的结果：

可见MASTER在不区分大小写赛道取得了当前第一名的结果，并大幅超越第二名，在区分大小写赛道取得准确率指标第四的好成绩。

作者总结称MASTER方法具有如下优势：

（1）模型能够更好的学习输入和输出之间的对齐关系，并且能够在编码器内部学习特征与特征之间的依赖关系，在解码器内部学习目标与目标之间的依赖关系，缓解了注意力混淆问题；

（2）模型在公开的基准数据集上取得了SOTA水平，尤其在不规则文本数据集上刷新了准确率，表明其对图片的空间形变不敏感；

（3）训练和预测阶段使用了并行计算，更加高效。

目前还未发现该文有开源代码，不过作者在论文中详细列出了关键模块的配置和PyTorch实现，应该比较容易复现。

论文地址：

https://arxiv.org/pdf/1910.02562.pdf

计算成本缩减100倍！港中文提出语义分割新方法：张量低秩重建｜ECCV2020

提出背景:上下文信息在语义分割的作用很重要.目前的两种方法:一种是基于非局部自注意力对上下文信息进行收集.这种方法是用2D相似度矩阵描述3D上下文信息,但是这种空间压缩会导致通道方面的注意力的丢失.另 ...
用于目标检测的半自动视频标注

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
SSC：基于点云语义上下文的大规模激光SLAM的位置识别方法

文章:SSC: Semantic Scan Context for Large-Scale Place Recognition 作者:Lin Li1 , Xin Kong1 , Xiangrui Zh ...
NLP未来，路在何方？12位巨佬联名指路！

CMU.华盛顿大学.南加州大学.MIT.MILA.密歇根大学.爱丁堡大学.DeepMind.伯克利.Apple-如果我说来自这些地方的dalao共同发表了一篇文章,你相信么?但别惊讶,在即将召开的EM ...
一文理解 Transformer 的工作原理

概述自然语言处理中的 Transformer 模型真正改变了我们处理文本数据的方式. Transformer 是最近自然语言处理发展的幕后推手,包括 Google 的 BERT. 了解 Tran ...
一年六篇顶会的清华大神提出Fastformer：史上最快、效果最好的Transformer

新智元报道来源:arXiv 编辑:LRS [新智元导读]Transformer模型好是好,可惜太慢了!最近一位清华大神在arxiv上传了一篇论文,提出新模型Fastformer,线性时间复杂度,训练 ...
CPTR：用于图像添加主题的全Transformer网络

重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章 ...
用于RGB-D语义分割的全局-局部传播网络

点击上方"深度学习爱好者",选择加"星标"或"置顶" 重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为 ...
GCNet：当Non-local遇见SENet

作者简介陀飞轮:复旦大学研究生在读,研究方向是目标检测.分割.跟踪好文!非常insight!研究思路类似于DPN,DPN深入探讨了ResNet和DenseNet的优缺点,然后结合ResNet和De ...
新思路！商汤开源利用无标注数据大幅提高精度的人脸识别算法

人脸识别是最近几年计算机视觉领域取得长足进步的领域,这得益于不断进步的深度学习强大的模型拟合能力和有标注的大型数据集的建立,已经出现了用于人脸识别的有标注的百万量级的数据集. 但继续扩大规模数据集变得 ...
BMVC18|无监督深度关联学习大幅提高行人重识别性能（附Github地址）

本文选自BMVC2018的论文<Deep Association Learning for Unsupervised Video Person Re-identification>,使用无 ...
谷歌相机分享，大幅提高小米拍照成像，拉到同主摄第一梯队，已适配/兼容72款小米机型 NGA玩家社区 P1

2021-03-14 10:18 ★ ⚙ 前言及谷歌相机介绍(2021.3.27全文重新排版,后续更新看贴条) 大家好,我是天明Tianmi,今天给大家分享一个小米手机拍照神器--谷歌相机! 众所 ...
新冠病毒使肺癌发病率大幅提高，其他癌症发病率降低原因令人担忧

新冠病毒使肺癌发病率大幅提高，其他癌症发病率降低原因令人担忧
革命性突破! 明星药物进军早期肺癌治疗, 患者治愈率将迎大幅提高

近些年来,我们在晚期肺癌的治疗中取得了非常重磅的成绩,但在早期肺癌的治疗上,我们仍然需要更多新方案来改善患者的生存期和临床治愈率. 事实上,早期肺癌患者占据了所有肺癌患者中相当大一部分群体.在世界卫生 ...
香港中文大学新成果：大幅提高电池寿命，普及大型电网储能技术

香港讯香港中文大学机械与自动化工程学系副教授卢怡君教授领导的研究团队成功研发一款可用于硫基液流电池(以硫化物为材料的液流电池)的新型「电荷增强型离子选择性膜」(CRIS).利用新技术,电池在没 ...
革命性突破！明星药物进军早期肺癌治疗，患者治愈率将迎大幅提高

近些年来,我们在晚期肺癌的治疗中取得了非常重磅的成绩,但在早期肺癌的治疗上,我们仍然需要更多新方案来改善患者的生存期和临床治愈率. 事实上,早期肺癌患者占据了所有肺癌患者中相当大一部分群体.在世界卫生 ...
用“六要素”大幅提高选股准确率

"六要素选股法"主要内容:通过指数.板块.个股三者共振,寻找建仓目标:通过形态.均线.K线(单K或2-3根K线组合)三者结合,确定建仓位置. 根据奶爸的经验:每当这个时候入场,成功 ...
新疆红枣：产量下降而品质上升仓单实际成本未必大幅提高

A 阿克苏地区阿克苏地区的枣树主要分布在温宿县.沙雅县.新和县.阿瓦提县.此次调研的对象主要是当地最大的红枣产地--温宿县下属的枣园. 温宿县造林四队:枣园普遍采用矮化密植的种植技术,株行距为2m× ...

MASTER：全局上下文建模大幅提高文本识别精度

相关推荐