文献阅读Leveraging Word-Formation Knowledge for Chinese Word Sense Disambiguation

1.导论

这篇文章的创新点在于引入了 Word-Formation 信息来进行多义词消歧任务，可以翻译为词型，举例“征文”一词来说

可以看到征文一词在不同的上下文context下会有不同的Formation(构型)，在像汉语这样的并列语言中，词义是使用特定的词形构成的，这有助于消除词义的歧义。具体的构型可以看文章的附录部分表格，一共有16种Formation，第二列是解释，第三列是具体的词语例子，第四列是这一类Formation在维基语料库wikicorpus中出现的次数（人工标注）

2.相关工作

WSD methods and resources:

有可利用的不同的词汇知识库，可惜中文WSD(语义消歧)数据集各自在格式、建立的原则上大有不同，所以难以整合到一起，扩充相关数据集，且建立词汇知识库的过程耗时耗力

Word-Formation knowledge:

(Zhu et al., 2019)¹.指出中文是利用word-formations构成的，词形已被证明是在多项任务中有效，例如学习parataxis languages(笔者猜测是逻辑语言？)的embeddings (Park et al., 2018; Li et al., 2018; Lin and Liu, 2019; Zheng et al., 2021a,b)².

3. 本文贡献之一：FiCLS数据集

本数据集包含4个信息(1)中心词(2)上下文(3)语义的定义(4)word-formation，与传统的WSD数据集相比多出了(4)

3.1 中文WSD数据集

现代汉语词典CCD拥有比HowNet更多更复杂更native的词义定义，总共有62241个词，其中22.32%是多义词，选择7064个多义词（包含20382个语义）

考虑假设：“similar distributions indiate similar meanings” ，可以通过现代汉语词典中某个词的含义Sense以及一些用例Use Case匹配wiki语料库中含有该Use Case的句子(自定义窗口值)来为wikicorpus中的词标注相应的sense，匹配的具体模式如图所示（这里最后一个"评论中国"估计是个意外，应该是匹配评论中国人，因为第二句里面4个token应该为”只是、评论、中国人、某些“）

使用上面的匹配方法，新的上下文将被切片以产生新的匹配模式，每个语义最多重复 30 个上下文。扩充总共产生 145,964 个条目，为了保证数据的质量，这些条目中的词将被3个母语为中文的人检查是否为某个意义，(笔者个人理解：)举例而言：图中的评论在’批评或议论’这一意义下被扩充了3个Use Case,人工需要检查的就是扩充出来的句子中的’评论’是不是’批评或议论’的意思

经过检查后：最终数据集包含 121,655 个词条，是目前我们所知的最大的中文词汇样本 WSD 数据集。

3.2 Word-Formation Annotations：

作者找了中文语言学的2个教授和6个研究生来做word-formation的词型标注，得到Table 6的数据

4.方法

4.1 任务制定

我们将 WSD 制定为句子级二进制分类任务，已被证明可以有效利用基于 BERT 的 WSD 方法中的定义

二分类任务：

作者使用目标词的意义定义 d 构造一个实例三元组$ (w, c, d)$,w为中心词，c是w所在的上下文，positive的三元组包含正确的意义定义，其标签 $y^ * = 1$ ，而negative三元组包含错误的意义定义，其标签 $y^* = 0$ 。作者使用 BERT 特定的预测标记 [CLS] 和句子边界标志 [SEP] 将上下文和定义展平为字符序列。一个分类器f负责将预测token的表示h映射到标签分布，三元组的标签预测为：

这个任务我个人理解是将原文图简化掉m部分，类似下图的样子

4.2 FormBERT with Formation Predictor

2022.4.29下午的学术讨论时问了一下作者，下图中的Formation Predictor的输入是context通过Bert之后得到的Embedding，而不是图中所画的直接将输入BERT之前的context直接输入到Formation Predictor中

有人工Formation标注的数据：给定上下文 $c$ 中真实词义 $d$ 的目标词 $w$ 及其词形(Word Formation)注释 $m^∗$ ，通过矩阵 $W_m$ 为每种形态类型学习一个形态嵌入 $m^∗$ 。然后将获得的embedding$ m^∗$ 与 h 组合以产生标签的概率分布：

由于Formation的标注成本太高，所以希望能有一个Predictor根据context直接预测出中心词的Formation，再将其放入4元组 $(w, c, d, m)$ 中

Formation预测部分：其中(w,c,m)为中心词，上下文和formation

g(·) 是一个线性分类器 formation predictor.

这里对原文中的 $p(y | w, c, d, m^∗ )$ 做一个解释：比如 $p(y=1 | w, c, d, m^∗ )$ 的含义为：已知在上下文 $c$ 中的词 $w$ 词型为 $m^*$ ，它的词义为 $d$ 的概率，当 $y = 0$ 的时候就是指词义不为 $d$ 的概率

5.实验

表中的BERT是没有Word-Formation的模型,表中比较了不同的方法在自创数据集FiCLS上的精度，最下面两个是文中提到的有无FP(formation predictor)的两种学习方式，为什么有无FP效果都差不多呢？作者给出了几点思考：

We speculate that the slight advantage over FormBERT can be owing to

(1) the significantly-high 93.29 accuracy of wordformation predictions, and

(2) the implicitly regularized context embeddings from the formation prediction objective.

(3) Concerning the performance on different PoS, most models perform the worst on adverbs

将这个模型和目前最好的GlossBERT的WSD模型ESCHER³ (最好的结论来自)相比还高出了3个百分点

写在最后

[1]Dexi Zhu. 1982. Yufa Jiangyi (Lectures on Grammar). The Commercial Press, China

[2]Hyun-jung Park, Min-chae Song, and Kyung-Shik Shin. 2018. Sentiment analysis of korean reviews using cnn: Focusing on morpheme embedding. Journal of Intelligence and Information Systems, 24(2):59–83.

[3] Bevilacqua M , Pasini T , Raganato A , et al. Recent Trends in Word Sense Disambiguation: A Survey[C]// Thirtieth International Joint Conference on Artificial Intelligence {IJCAI-21. 2021.