两种基于模糊聚类的词义推断方法:FCSE-1和FCSE-2

词义推断根据词的不同语境,对其含义进行区分,是词义表示学习的基础。本文介绍两种基于模糊聚类的词义推断方法:FCSE-1 和 FCSE-2。为了提高模型的灵活性和可扩展性,两种方法均采用无参的在线聚类方法。

根据上文对英文单词“guard”的观察可知,原始义项通常具有较高的使用频率, 并且与衍生义项之间会共享一部分语义。

因此,本文提出两种方法:

1、FCSE-1 从语义的角度推断词义,即衡量目标词的上下文到义项类别中心的距离体现目标词属于该义项的概率。

2、FCSE-2 引入随机过程:波利亚罐子模型去进一步考虑 词义的使用频率。

FCSE-1 

FCSE-1 在线的对当前词的上下文进行聚类,得到其词义类别。当初次碰到目标词时,为其创建一个新的义项类别,并初始化该义项类别的表示为当前目标词的上下文表示。其次,对于该词的每一次出现,为其采样若干个义项类别,或者新建一个义项类别,依据是计算本次出现的上下文表示属于该类别的概率,当所有类别的概率为 0,则新建义项类别。最后,为所有采样的义项类别进行更新,即将本次出现的上下文表示添加到该类别中。

对于目标词 wi,给定其全局词向量 wi,不固定的义项类别,以及相应的类别表示,FCSE-1 定义目标词的一次出现属于某个义项类别的概率为其上下文表示到该义项类别的语义距离,距离越近,概率越大。FCSE-1 对概率最大的若干义项进行采样。概率函数定义如下:

其中,μi,l 为第 l 个义项类别的表示,定义为所有属于该义项类别的上下文表示的中心点。Z 是正则项,sim(·, ·) 是相似度衡量标准。在实验中,本文使用余弦 相似度,因为其效果最好。εunder 是预先定义的阈值,代表着新建义项类别的容 易程度。

假定对目标词的一次出现计算其在所有义项类别上的分布,并按降序排 列:{p(ss,l)|si,l ∈ S(wi)},然后采样具有最高概率的 ni 个义项类别,其中 ni 满足 p(ss,ni)−p(ss,ni+1)>εupper。对于超参数有0≤εunder,εupper ≤1。

FCSE-2 

FCSE-1 使用两个超参数分别控制新建义项类别和采样的义项数量,需要大量的经验进行调节。因此,本文在 FCSE-2 中引入随机过程波利亚罐子模型,以代替固定的阈值,一方面增加模型的随机性,另一方面使得对义项使用频率和上下文的语义同时建模成为可能。本小节首先简要介绍波利亚罐子模型,然后将其整合 进 FCSE-2。

✦ 泛化的波利亚罐子模型

波利亚罐子模型是一类著名的随机过程,它假设从罐子中取小球并同时放回额外的若干个小球。假定最初罐子中有若干不同颜色的小球,对于每次取球的采 样过程,第 i 个颜色的小球被采样的概率服从以下分布:

其中,m 是罐子中小球的总数,mi 是具有第 i 个颜色小球的数目。一个标准的罐子模型在采样之后同时放回该小球以及一个具有相同颜色的小球,因此,可能看做一个强化过程,即“强者越强”。更多的信息可以在综述文章[147] 中找到。波利 亚罐子模型经常被用在非参的聚类过程,其中每个数据点代表罐子中的一个小球, 而数据点的类别即为小球的颜色。

由于放回固定的小球不够灵活,泛化的波利亚罐子模型进一步将此强化过程扩展为放回服从某种分布的若干个小球。也就是说,一旦颜色为 i 的小球被采样, 另有 Aij 个颜色为 j的小球被放回到罐子中。这样,对于每次采样,我们根据分布 A 放回不同数量不同颜色的小球。重复这个过程,采样的频率将会一直变化,除非定义分布 A 中的所有元素为 0。

✦ 整合泛化波利亚罐子模型到词义推断

词义推断的过程可以被看作一个泛化的波利亚罐子模型。一旦义项被采样,与之相关的义项也随之增强。特别地,本文定义衍生义项增强的分布取决于被采样的原始义项。其核心思想是每次使用目标词的衍生义项,都隐含着该词的原始义项。不了解原始义项会对理解衍生义项产生阻碍。例如,文本“海量数据”中的“海” 具有多的意思,如果了解其原始义项大而无边的特点,就很容易进行理解。

相应地,在泛化的波利亚罐子定理中,罐子代表单词,小球为单词在语料中的出现,小球颜色为对应的单词义项。注意不同之处在于词在文档中的出现相当于小球具有编号加以区分。那么,具有相同颜色的小球意味着同一个义项类别。

本文使用两个步骤分别进行原始义项和衍生义项的采样。第一个步骤进行原始义项的采样,在这一步骤中,不仅考虑该义项的全局统计信息,即该义项在目标词当前所有出现中的采样次数,并且考虑目标词的上下文对于义项类别的语义距离,即上下文向量表示与义项类别表示的相似度。第二个步骤在给定原始义项的基础上进行衍生义项的采样。这一步骤中可能采样多个衍生义项,采样停止条件同 FCSE-1。

这样,原始义项及其衍生义项分别服从不同的分布,并随着采样过程的重复, 不断得以加强。考虑到原始义项往往具有更高的使用频率,为其定义采样的概率分布如下:

其中,mi 为目标词 wi 在文档中当前出现的总次数,mi,l 为其第 l 个义项出现 的总次数,并且满足 ∑|S(wi) l=1 mi,l = mi。γ 是概率分布的先验,意味着新建义项的容易程度,并且随着它的作用随着采样次数的增多逐渐减小。一方面提高稀疏数据情况下义项推断的鲁棒性;另一方面防止先验的影响过大,干扰对数据的建模。

我们定义第二步骤中衍生义项的采样概率同时与前一步骤中的原始义项和当前出现的上下文有关,并与原始义项表示以及上下文表示到义项类别的语义距离成正比,具体形式定义如下:

其中,εe 在 0 到 1 之间变化,用来控制强化过程的权重。

通过分步采样,使用条件概率对原始义项和衍生义项的关系进行了建模。这 样一来,对于目标词的每次出现,FCSE-2 都会为其分配一个原始义项和若干个衍生义项,或没有任何的衍生义项。这一假设是基于对单词词义在文档中分布的观察,与现实相符。并且,对于目标词的一次出现,为其分配的衍生义项最终概率为两个步骤的乘积:p(si,l′ |si,l, wi, C(wi))p(si,l |wi, C(wi))。显然,衍生义项的采样概率总是小于原始义项。

[147] Pemantle R, et al. A survey of random processes with reinforcement. Probability surveys, 2007, 4:1–79.

(0)

相关推荐