利用Transformers进行手写文字识别

重磅干货,第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

摘要

作者提出了一种新颖的基于transformer的风格手写文本图像生成方法HWT,它努力学习样式-内容纠缠以及全局和本地书写样式模式。提出的HWT通过一种自我注意机制来捕捉风格实例中的长期和短期关系,从而编码全局和局部风格模式。此外,提议的基于变压器的HWT包含一个编码器-解码器注意,通过收集每个查询字符的样式表示,它支持样式-内容纠缠。据作者所知,作者是第一个引入基于transformer的生成网络的手写文本生成。

作者提出的HWT生成逼真风格的手写文本图像,并显著优于通过广泛的定性、定量和基于人的评估所展示的最先进水平。建议的HWT可以处理任意长度的文本和任何想要的写作风格在少数镜头设置。此外,作者的HWT很好地概括了具有挑战性的场景,在训练期间,单词和写作风格都不可见,生成了逼真风格的手写文本图像。

论文创新点

  • 作者介绍了一种新的手写文本生成方法,该方法建立在变压器上,称为手写变压器(HWT),它包含一个编码器-解码器网络。该编码器网络利用多头自我注意机制生成作者的自我注意风格特征序列。然后,这个特征序列被输入到解码器网络,该网络由多头自定义和编码器-解码器注意组成,以生成给定一组查询字串的特定字符样式属性。因此,结果输出馈送到卷积解码器生成最终风格的手写文本图像。此外,作者通过损失项来约束解码器输出,从而提高所生成文本的风格一致性,其目标是在编码器上重新生成写作者的风格特征序列。

  • 作者的HWT模仿给定查询内容的编写者的风格,通过自我注意和编码器-解码器注意,强调与查询中的每个字符相关的自我注意风格特征。这使作者能够捕获字符级别的样式-内容纠缠。此外,由作者的编码器生成的自注意风格特征序列同时捕捉了作者在该特征序列中的全局风格(如墨水宽度、斜度)和局部风格(如字符风格、连写)。

  • 作者通过进行广泛的定性、定量和以人为基础的评估来验证作者提出的HWT。在以人为基础的评估中,作者提出的HWT比最近的风格手写文本生成方法更可取[5,14],在写作风格模仿方面实现了人类的可信性。在GANwriting[14]之后,作者在IAM handwriting dataset的所有四个设置上评估作者的HWT。词汇表之外的极端环境和看不见的风格(OOV-U),查询词和写作风格都从来没有见过在训练期间,该HWT优于GANwriting[14]绝对增益为16.5的f《盗梦空间》说——'例如(FID)从而展示作者的泛化能力。此外,作者的定性分析表明,《HWT》的表现优于现有作品,生成了逼真的风格手写文本图像(见图1)。

框架结构

作者的手写变形器(HWT)的整体架构,以生成风格手写文本图像X~it。HWT包括具有编码器TE和解码器网络TD的条件生成器。编码器和解码器网络都构成了一种混合卷积和多头自我注意设计,它结合了CNN和基于变压器的模型的优点,即在处理有限的手写风格的示例图像时,高度表达的关系建模。因此,作者的设计无缝地实现了样式-内容的纠缠,编码文本内容和作者风格之间的关系,并学习给定输入的全局和局部样式模式(Xis和A)。

实验结果

在变压器解码器的最后一层显示编码器-解码器的注意图。为查询词(统计)中的每个字符计算注意映射,然后将其映射到示例样式图像中的空间区域(热点映射)。这里显示了对应于四个不同查询字符t、i、c和l的热图。例如,左上角的注意力映射对应于字符t,突出显示了包含字符t的多个图像区域。

图1

HWT (c)与GANwriting [14] (d)和Davis等人[5](e)在为给定的查询文本(b)模仿期望的不可见写作风格(a)方面的比较。当[14,5]捕获全局写作风格(例如,倾斜)时,他们很难模仿局部风格模式(例如,字符风格,连写)。HWT (c)既模仿了全球风格,也模仿了本地风格,从而产生了更真实风格的手写文本图像。例如,在(a)中出现的风格n(红线)被HWT模仿,对于包含相同字符n的不同单词。类似地,思想和个性中的一组字符(蓝线和品红线)的样式与(a)中具有一些共同字符的单词(贯穿和品质)相匹配。此外,HWT也保留了word中所有字符的草书模式和连通性(绿线)。

结论

作者介绍了一种基于变压器的手写文本图像生成方法HWT,它包含一个具有编码器-解码器网络的条件生成器。作者的HWT通过自我注意机制捕获了写作风格实例中的长期和短期上下文关系,从而编码了全局和本地的写作风格模式。此外,HWT利用了一种编码器-解码器的注意,通过推断每个查询字符的样式表示,在字符级支持样式-内容纠缠。定性、定量和以人为基础的评估表明,作者的HWT可以产生具有不同长度和任何所需写作风格的写实风格的手写文本图像。

论文链接:https://arxiv.org/pdf/2104.03964.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

- END -

下载1:【应用线性代数】
(0)

相关推荐