1.导论

这篇文章的创新点在于引入了 Word-Formation 信息来进行多义词消歧任务,可以翻译为词型,举例“征文”一词来说

可以看到征文一词在不同的上下文context下会有不同的Formation(构型),在像汉语这样的并列语言中,词义是使用特定的词形构成的,这有助于消除词义的歧义。具体的构型可以看文章的附录部分表格,一共有16种Formation,第二列是解释,第三列是具体的词语例子,第四列是这一类Formation在维基语料库wikicorpus中出现的次数(人工标注)

2.相关工作

WSD methods and resources:

有可利用的不同的词汇知识库,可惜中文WSD(语义消歧)数据集各自在格式、建立的原则上大有不同,所以难以整合到一起,扩充相关数据集,且建立词汇知识库的过程耗时耗力

Word-Formation knowledge:

(Zhu et al., 2019)1.指出中文是利用word-formations构成的,词形已被证明是在多项任务中有效,例如学习parataxis languages(笔者猜测是逻辑语言?)的embeddings (Park et al., 2018; Li et al., 2018; Lin and Liu, 2019; Zheng et al., 2021a,b)2.

3. 本文贡献之一:FiCLS数据集

本数据集包含4个信息(1)中心词(2)上下文(3)语义的定义(4)word-formation,与传统的WSD数据集相比多出了(4)

3.1 中文WSD数据集

现代汉语词典CCD拥有比HowNet更多更复杂更native的词义定义,总共有62241个词,其中22.32%是多义词,选择7064个多义词(包含20382个语义)

考虑假设:“similar distributions indiate similar meanings” ,可以通过现代汉语词典中某个词的含义Sense以及一些用例Use Case匹配wiki语料库中含有该Use Case的句子(自定义窗口值)来为wikicorpus中的词标注相应的sense,匹配的具体模式如图所示(这里最后一个"评论中国"估计是个意外,应该是匹配评论中国人,因为第二句里面4个token应该为”只是、评论、中国人、某些“)

使用上面的匹配方法,新的上下文将被切片以产生新的匹配模式,每个语义最多重复 30 个上下文。 扩充总共产生 145,964 个条目,为了保证数据的质量,这些条目中的词将被3个母语为中文的人检查是否为某个意义,(笔者个人理解:)举例而言:图中的评论在’批评或议论’这一意义下被扩充了3个Use Case,人工需要检查的就是扩充出来的句子中的’评论’是不是’批评或议论’的意思

经过检查后:最终数据集包含 121,655 个词条,是目前我们所知的最大的中文词汇样本 WSD 数据集。

3.2 Word-Formation Annotations:

作者找了中文语言学的2个教授和6个研究生来做word-formation的词型标注,得到Table 6的数据

4.方法

4.1 任务制定

我们将 WSD 制定为句子级二进制分类任务,已被证明可以有效利用基于 BERT 的 WSD 方法中的定义

二分类任务:

作者使用目标词的意义定义 d 构造一个实例三元组$ (w, c, d)$,w为中心词,c是w所在的上下文,positive的三元组包含正确的意义定义,其标签 y ∗ = 1 y^ * = 1 y=1,而negative三元组包含错误的意义定义,其标签 y ∗ = 0 y^* = 0 y=0。作者使用 BERT 特定的预测标记 [CLS] 和句子边界标志 [SEP] 将上下文和定义展平为字符序列。 一个分类器f负责将预测token的表示h映射到标签分布,三元组的标签预测为:

这个任务我个人理解是将原文图简化掉m部分,类似下图的样子

4.2 FormBERT with Formation Predictor

2022.4.29下午的学术讨论时问了一下作者,下图中的Formation Predictor的输入是context通过Bert之后得到的Embedding,而不是图中所画的直接将输入BERT之前的context直接输入到Formation Predictor中

有人工Formation标注的数据:给定上下文 c c c 中真实词义 d d d 的目标词 w w w 及其词形(Word Formation)注释 m ∗ m^∗ m,通过矩阵 W m W_m Wm 为每种形态类型学习一个形态嵌入 m ∗ m^∗ m。 然后将获得的embedding$ m^∗$ 与 h 组合以产生标签的概率分布:

由于Formation的标注成本太高,所以希望能有一个Predictor根据context直接预测出中心词的Formation,再将其放入4元组 ( w , c , d , m ) (w,c,d,m) (w,c,d,m)

Formation预测部分:其中(w,c,m)为中心词,上下文和formation

g(·) 是一个线性分类器 formation predictor.

这里对原文中的 p ( y ∣ w , c , d , m ∗ ) p(y | w, c, d, m^∗ ) p(yw,c,d,m)做一个解释:比如 p ( y = 1 ∣ w , c , d , m ∗ ) p(y=1 | w, c, d, m^∗ ) p(y=1w,c,d,m)的含义为:已知在上下文 c c c中的词 w w w词型为 m ∗ m^* m,它的词义为 d d d的概率,当 y = 0 y=0 y=0的时候就是指词义不为 d d d的概率

5.实验

表中的BERT是没有Word-Formation的模型,表中比较了不同的方法在自创数据集FiCLS上的精度,最下面两个是文中提到的有无FP(formation predictor)的两种学习方式,为什么有无FP效果都差不多呢?作者给出了几点思考:

We speculate that the slight advantage over FormBERT can be owing to

(1) the significantly-high 93.29 accuracy of wordformation predictions, and

(2) the implicitly regularized context embeddings from the formation prediction objective.

(3) Concerning the performance on different PoS, most models perform the worst on adverbs

将这个模型和目前最好的GlossBERT的WSD模型ESCHER3 (最好的结论来自)相比还高出了3个百分点

写在最后

[1]Dexi Zhu. 1982. Yufa Jiangyi (Lectures on Grammar). The Commercial Press, China

[2]Hyun-jung Park, Min-chae Song, and Kyung-Shik Shin. 2018. Sentiment analysis of korean reviews using cnn: Focusing on morpheme embedding. Journal of Intelligence and Information Systems, 24(2):59–83.

[3] Bevilacqua M , Pasini T , Raganato A , et al. Recent Trends in Word Sense Disambiguation: A Survey[C]// Thirtieth International Joint Conference on Artificial Intelligence {IJCAI-21. 2021.

文献阅读Leveraging Word-Formation Knowledge for Chinese Word Sense Disambiguation相关推荐

  1. 文献阅读笔记-CSC-数据集-A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check

    A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check 文献阅读笔记 论文相关信息: EMNLP-201 ...

  2. 【文献阅读】StyleBERT: Chinese pretraining by font style information

    Abstract 因此在本文中,我们提出了中文预训练语言模型 StyleBERT,它结合了以下嵌入信息来增强语言模型的 savvy,例如单词.拼音.五笔和chaizi(拆字). Introductio ...

  3. 文献阅读 - Deep Contextualized Word Representations

    Deep Contextualized Word Representations M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, et al., Dee ...

  4. 研究生如何进行文献检索和文献阅读

    阅读文献一定不要心浮气躁,要沉下心来大量阅读.在读的过程中有的文献看懂了,但是看不懂的文献也可能会居多.看懂的认真学习借鉴,看不懂的深入探索,实在不行就暂时放下,过一段时间,随着知识和能力的提高慢慢也 ...

  5. 谣言检测文献阅读十二—Interpretable Rumor Detection in Microblogs by Attending to User Interactions

    系列文章目录 谣言检测文献阅读一-A Review on Rumour Prediction and Veracity Assessment in Online Social Network 谣言检测 ...

  6. 最大熵模型(Maximum Entropy Model)文献阅读指南

    最大熵模型(Maximum Entropy Model)是一种机器学习方法,在自然语言处理的许多领域(如词性标注.中文分词.句子边界识别.浅层句法分析及文本分类等)都有比较好的应用效果.张乐博士的最大 ...

  7. 知云文献翻译打不开_比有道更好用的英文文献阅读翻译神器免费啦

    知云文献翻译软件免费啦!您扫下面二维码就就可以得到,不需转发朋友圈.不配一款神器,科研哪来效率!有了这款神器,科研都变得更简单! 用它直接打开英文pdf文献,随便选中一段话,右侧立即给出翻译,不再需要 ...

  8. 文献阅读软件_推荐一款阅读英文文献的神器,效率高不少,理解深不少!

    今天小编给大家推荐的这款软件用来阅读英文文献时思路非常顺畅,它自己就是一个pdf阅读器,随便选中一段话或一句话或一个单词,右侧就会给出翻译.再也不用像有道那样每次悬浮个窗口,屏幕上不该翻译的也到处翻译 ...

  9. 【知识图谱】本周文献阅读笔记(3)——周二 2023.1.10:英文)知识图谱补全研究综述 + 网络安全知识图谱研究综述 + 知识图谱嵌入模型中的损失函数 + 图神经网络应用于知识图谱推理的研究综述

    声明:仅学习使用~ 对于各文献,目前仅是泛读形式,摘出我认为重要的点,并非按照原目录进行简单罗列! 另:鉴于阅读paper数目稍多,对paper内提到的多数模型暂未细致思考分析.目的是总结整理关于KG ...

最新文章

  1. 如何去掉Silverlight应用程序在浏览器中的滚动条
  2. python3.6.5安装教程-Centos7 安装Python3.6.5步骤
  3. shell特殊符号cut命令 sort_wc_uniq命令 tee_tr_split命令 shell特殊符号
  4. CH Round #30 摆花[矩阵乘法]
  5. flex 文字竖排_flex button字竖排展示
  6. access日期如何增加年数_如何为Access数据库表添加日期或时间戳
  7. excel线性拟合的斜率_协方差分析:方差分析与线性回归的统一
  8. 使用Regsvr32命令修复系统故障
  9. php 几个比较实用的函数
  10. 单片机c语言数字频率计课程设计,单片机数字频率计设计和调试 课程设计论文...
  11. 如何实现在已有代码之后添加逻辑之继承,组合(静态代理)实现方法
  12. JavaWeb项目启动时,tomcat会启动两次的原因(之一)和解决方案
  13. 新手干货:Vue - 常用指令
  14. 打造全能网管——网吧常用工具软件介绍
  15. 前加加++和后加加++的深入理解
  16. 迅捷fw313r服务器无响应,FAST迅捷FW313R路由器的固件更新教程
  17. 关于DNS污染问题的通用解决方案
  18. 【Camera】Camera基础概念
  19. 计算机逻辑函数,逻辑函数
  20. zoj Heavy Cargo

热门文章

  1. python之容器类型数据的一系列操作之字符串
  2. 树莓派PICO-OLED图片和视频
  3. 新金融分布式架构之SOFAStack解决方案
  4. 签名组件 微信小程序/Vue
  5. Ae 效果快速参考:扭曲
  6. 3D数学基础(一)——左手坐标系和右手坐标系
  7. 如何提高即兴演讲能力与组织语言的能力
  8. SAP生产报工补充扣料操作
  9. 用网络校准你的计算机时间(请转发)
  10. 雄安新区海关完成首票数字货币保证金缴纳业务