【NLP】机器如何认识文本 ?NLP中的Tokenization方法总结

Tokenization

关于Tokenization,网上有翻译成'分词'的,但是我觉得不是很准确,容易引起误导。一直找不到合适的中文来恰当表达,所以下文采用原汁原味的英文表达。

在正式进入主题之前,先来看看NLP任务中最基础也最先需要进行的一步:tokenization。简单说,该操作的目地是将输入文本分割成一个个token,和词典配合以让机器认识文本。Tokenization的难点在于如何获得理想的切分,使文本中所有的token都具有正确的表义,并且不会存在遗漏(OOV问题)。

接下来,我们简单梳理下目前主流的tokenization方法,及其优缺点。

词粒度

词粒度的切分就跟人类平时理解文本原理一样,常常用一些工具来完成,例如英文的NLTK、SpaCy,中文的jieba、LTP等。举个栗子:

英文:

live in New York ------> live / in / New York /

中文:

在纽约生活 -----> 在 / 纽约 / 生活

词粒度的切分能够非常好地保留完整语义信息,但是如果出现拼写错误、英文中的缩写等情况,鲁棒性一般。另一方面,词切分会产生非常巨大的词表,而且这都不能确保不会出现out of vocabulary问题。

字粒度

字粒度最早应该是2015年Karpathy[1]提出,简单说英文就是以字母为单位(对于大小写不敏感的任务,甚至可以先转小写再切分),中文就是以字为单位,举个栗子,

英文:

live in New York -----> l / i / v /e / i / n / N / e / w / Y / o / r /k

中文:

在纽约生活 -----> 在 / 纽 / 约 / 生 / 活

可以看出,字粒度的切分很好地解决了词粒度的缺陷,鲁棒性增强、词表大大减小。但另一方面,也会带来一些麻烦:

  • 「毫无意义」:一个字母或一个单字本质上并没有任何语义意义;
  • 「增加输入计算压力」:减小词表的代价就是输入长度大大增加,从而输入计算变得更耗时耗力;

如果词粒度不理想,而且字粒度似乎也有自己的问题,那么还有什么替代方法呢?

Here comes subword tokenization!

Subword粒度

我们理想中的tokenization需要满足:

  • 它能够在不需要无限词汇表的情况下处理缺失的标记,即通过有限的已知单词列表来处理无限的潜在词汇;
  • 此外,我们不希望将所有内容分解为单个字符的额外复杂性,因为字符级别可能会丢失单词级别的一些含义和语义细节。

为此,我们需要考虑如何重新利用『小』单词来创建『大』单词。subword tokenization不转换最常见的单词,而是将稀有单词分解成有意义的子词单元。如果unfriendly被标记为一个稀有词,它将被分解为un-friendly-ly,这些单位都是有意义的单位,un的意思是相反的,friend是一个名词,ly则变成副词。这里的挑战是如何进行细分,我们如何获得un-friend-ly而不是unfr-ien-dly

NLP最火的网红 TransformerBERT 就是Subword的带盐人,来看个它们做tokenization的栗子,

I have a new GPU  ----> [’i’, ’have’, ’a’, ’new’, ’gp’, ’##u’, ’.’]

subword粒度切分算法又有以下几种:

  • BPE
  • WordPiece
  • ULM

BPE

BPE全称Byte Pair Encoding,字节对编码,首先在Neural Machine Translation of Rare Words with Subword Units[2] 中提出。BPE 迭代地合并最频繁出现的字符或字符序列,具体步骤:

  1. 准备足够大的语料库
  2. 定义好所需要的词表大小
  3. 将单词拆分为字符序列,在末尾添加后缀 </ w>,并统计单词频率。本阶段的subword的粒度是字符。例如,“ low”的频率为5,那么我们将其改写为l o w </ w>:5
  4. 统计每一个连续字节对的出现频率,选择最高频者合并成新的subword
  5. 重复第4步直到达到第2步设定的subword词表大小或下一个最高频的字节对出现频率为1

举个栗子,我们输入,

{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w e s t </w>': 6, 'w i d e s t </w>': 3}

第一轮迭代,统计连续的每两个字节出现的次数,发现 es 共现次数最大,合并成es,有,

{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w es t </w>': 6, 'w i d es t </w>': 3}

第二轮迭代,统计连续的每两个字节出现的次数,发现 est 共现次数最大,合并成est,有,

{'l o w </w>': 5, 'l o w e r </w>': 2, 'n e w est </w>': 6, 'w i d est </w>': 3}

依次继续迭代直到达到预设的subword词表大小或下一个最高频的字节对出现频率为1。

以上是BPE的整体流程,关于BPE更多细节可以参考:Byte Pair Encoding[3]

Unigram LM

Unigram语言建模首先在Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates[4]中提出,基于所有子词出现是独立的假设,因此子词序列由子词出现概率的乘积生成。算法步骤如下:

  1. 准备足够大的语料库
  2. 定义好所需要的词表大小
  3. 给定词序列优化下一个词出现的概率
  4. 计算每个subword的损失
  5. 基于损失对subword排序并保留前X%。为了避免OOV,保留字符级的单元
  6. 重复第3至第5步直到达到第2步设定的subword词表大小或第5步的结果不再变化

unigram-LM模型比BPE更灵活,因为它基于概率LM,并且可以输出具有概率的多个分段。它不是从一组基本符号开始,更具某些规则进行合并,如BPE或WordPiece,而是从一个庞大的词汇量开始,例如所有预处理的单词和最常见的子字符串,并逐步减少。

WordPiece

WordPiece首先在 JAPANESE AND KOREAN VOICE SEARCH[5] 中提出,最初用于解决日语和韩语语音问题。它在许多方面类似于BPE,只是它基于可能性而不是下一个最高频率对来形成一个新的子词。算法步骤如下:

  1. 准备足够大的语料库
  2. 定义好所需要的词表大小
  3. 将单词拆分成字符序列
  4. 基于第3步数据训练语言模型
  5. 从所有可能的subword单元中选择加入语言模型后能最大程度地增加训练数据概率的单元作为新的单元
  6. 重复第5步直到达到第2步设定的subword词表大小或概率增量低于某一阈值

WordPiece更像是BPE和Unigram LM的结合。

小结

简单几句话总结下Subword的三种算法:

  • BPE:只需在每次迭代中使用「出现频率」来确定最佳匹配,直到达到预定义的词汇表大小;
  • Unigram:使用概率模型训练LM,移除提高整体可能性最小的token;然后迭代进行,直到达到预定义的词汇表大小;
  • WordPiece:结合BPE与Unigram,使用「出现频率」来确定潜在匹配,但根据合并token的概率做出最终决定.

Sentencepiece

到目前为止,可以发现subword结合了词粒度和字粒度方法的优点,并避免了其不足。但是,仔细想会发现上述三种subword算法都存在一些问题:

  • 「都需要提前切分(pretokenization)」 :这对于某些语言来说,可能是不合理的,因为不可以用空格来分隔单词;

  • 「无法逆转」:原始输入和切分后序列是不可逆的。举个栗子,下面两者的结果是相等的,即空格的信息经过该操作被丢失

    Tokenize(“World.”) == Tokenize(“World .”)

  • 「不是End-to-End」:使用起来并没有那么方便

ok,here comes SentencePiece!来看看是怎么解决上述问题的

  • SentencePiece首先将所有输入转换为unicode字符。这意味着它不必担心不同的语言、字符或符号,可以以相同的方式处理所有输入;
  • 空白也被当作普通符号来处理。Sentencepiece显式地将空白作为基本标记来处理,用一个元符号 “▁”( U+2581 )转义空白,这样就可以实现简单地decoding
  • Sentencepiece可以直接从raw text进行训练,并且官方称非常快!

快结束了,我想说一下,这真的不是Sentencepiece的软文(谷歌,打钱!)

SentencePiece集成了两种subword算法,BPE和UniLM, WordPiece 则是谷歌内部的子词包,没对外公开。感兴趣的可以去官方开源代码库玩玩:google/sentencepiece[6]

放个栗子:

>>> import sentencepiece as spm>>> s = spm.SentencePieceProcessor(model_file='spm.model')>>> for n in range(5):...     s.encode('New York', out_type=str, enable_sampling=True, alpha=0.1, nbest=-1)...['▁', 'N', 'e', 'w', '▁York']['▁', 'New', '▁York']['▁', 'New', '▁Y', 'o', 'r', 'k']['▁', 'New', '▁York']['▁', 'New', '▁York']

最后,如果想尝试WordPiece,大家也可以试试HuggingFace的Tokenization库[7]

from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.pre_tokenizers import Whitespace
from tokenizers.trainers import BpeTrainer

tokenizer = Tokenizer(BPE())
tokenizer.pre_tokenizer = Whitespace()

trainer = BpeTrainer(special_tokens=['[UNK]', '[CLS]', '[SEP]', '[PAD]', '[MASK]'])
tokenizer.train(trainer, ['wiki.train.raw', 'wiki.valid.raw', 'wiki.test.raw'])

output = tokenizer.encode('Hello, y'all! How are you 😁 ?')
print(output.tokens)
# ['Hello', ',', 'y', ''', 'all', '!', 'How', 'are', 'you', '[UNK]', '?']

本文参考资料

[1]

2015年Karpathy: https://github.com/karpathy/char-rnn

[2]

Neural Machine Translation of Rare Words with Subword Units: https://arxiv.org/abs/1508.07909

[3]

Byte Pair Encoding: https://leimao.github.io/blog/Byte-Pair-Encoding/

[4]

Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates: https://arxiv.org/abs/1804.10959

[5]

JAPANESE AND KOREAN VOICE SEARCH: https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/37842.pdf

[6]

google/sentencepiece: https://github.com/google/sentencepiece

[7]

HuggingFace的Tokenization库: https://github.com/huggingface/tokenizers

END -

(0)

相关推荐

  • 机器翻译是如何炼成的? | 袁岚峰

    风云之声 昨天 22:26 导读 2010年之前,华人出现在AI顶级会议优秀论文中的还寥寥可数.近年来,华人开始在AI国际机构担任要职,优秀论文也开始涌现.例如在过去三年的ACL会议中,华人科学家拿到 ...

  • 机器如何认识文本 ?NLP中的Tokenization方法总结

    大家好,我是kaiyuan.前几天在群里讨论,有同学问到了『基于字粒度和词粒度的BERT,效果哪个好?』这篇文章我们就来深入聊一聊PLM模型『输入粒度』的问题. 划掉划掉,本来想在介绍PLM模型之前简 ...

  • 面试题:文本摘要中的NLP技术

    解析: 人类很难手动汇总大型文本文档.文本摘要是NLP为源文档创建简短.准确和流畅的摘要问题. 随着推送通知和文章摘要获得越来越多的注意力,为长文本生成智能且准确摘要的任务每天都在增长. 通过首先计算 ...

  • NLP理解六层次在管理中的应用--苏海军--沪师经纪刘建

    NLP理解六层次在管理中的应用 [课程对象] 企业各级管理者 [课程特色] 讲授.游戏.研讨.案例分析等互动方式,课程引入了最新的教练技术.建构主义.引导技术.行动学习等新式教学方法! [课程时长] ...

  • 【每周NLP论文推荐】 对话管理中的标志性论文介绍

    欢迎来到<每周NLP论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 对话管理(Dialog Managemen ...

  • 从文本细读中探寻诗歌的奥秘

    诗歌选本,有助于我们在诗海中快捷阅读到好作品.当下众多的年度选本,大都是由编者从当年文学期刊中选取,一人一首代表作.好处是充分体现了编者的立场和审美,难处在于这种选本对编者来说有一定难度,因为只选取一 ...

  • 非连续性文本阅读中的“侧重点”总是答不到“点”,我来拉你一把

    试卷上哪一部分最简单最容易得分?各有答案,但很多同学在做非连续性文本阅读中感觉不难,而且客观题最有把握,得分容易.但是主观题只要不仅仅考查筛选,而是加上概括要求的时候,就有点力不从心.想要有所提高却不 ...

  • 翻译研究 || 耿强:翻译中的副文本及研究——理论、方法、议题与批评

    翻译中的副文本及研究:理论.方法.议题与批评 Paratext in Translation and Translation Studies: Perspectives, Methods, Issue ...

  • 从含有数字的文本字符串中提取出数字

    我的工作表中有许多含有数字的单元格,我想将数字单独提取出来.如下图1所示,将列A的单元格中的数字提取出来放置在列B中,应该如何编写公式呢? 图1 可以使用数组公式: =1*MID(A1,MATCH(T ...

  • Java 读取Word文本框中的文本/图片/表格

    Word可插入文本框,文本框中可嵌入文本.图片.表格等内容.对文档中的已有文本框,也可以读取其中的内容.本文以Java程序代码来展示如何读取文本框,包括读取文本框中的文本.图片以及表格等. [程序环境 ...