论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。


来源:EMNLP 2018

链接:https://www.aclweb.org/anthology/D18-1034

问题背景与动机

本文关注小语种/资源匮乏语言的跨语言命名实体识别问题,首先作者肯定了现有无监督/弱监督方法在单语资源丰富的情况下能够取得不错的性能。但是对于单语资源不足的情况下,这些方法却无法适用,原因在于:无监督方法需要构建单语embedding并投影到共享空间中,但是单语资源不足的情况下,无法构建有质量的embedding;弱监督方法则需要使用一定规模(10K~1M)的双语词典作为语言对齐的seed,显然这个要求对于小资源语言(如维吾尔语)也是相对苛刻了。

为了解决这一问题,作者提出结合词典方法与embedding方法,利用微量平行数据(<10K)构建embedding,将丰富资源的英语数据与微量资源的小语种词汇投影到共享空间中,而后利用近邻方式构建规模更大的双语词典,再利用双语词典将英语数据word-by-word译为小语种数据,用于NER模型的训练。同时,考虑到这种方法产生的语言距离真实的自然语言表达存在差异,作者在NER模型中引入self-attention试图减缓这种影响

贡献

1.  提出了一种通过语言迁移实现的跨语言NER策略

2. 提出一种 order-invariant self-attention 机制用于缓解语言迁移以及数据量不足对 NER 模型产生的影响

方法说明

本文的方法过程描述如下:

1.  使用单语语料独立训练两种语言的 embedding 单语嵌入使用的方法类似 (Mikolovetal., 2013b; Pennington et al., 2014; Bojanowskiet al., 2017)等人的工作,利用单语文本训练嵌入矩阵。

2.  利用给定的微量双语字典,将上述两种语言的embedding投影到一个共享空间中投影方法,采用的是 (Zhang et al., 2016; Artetxe et al., 2016; Smithet al., 2017) 等类似的方式,通过训练投影矩阵,实现将两种语言的 embedding 投影

3.  对于单语资源丰富的英语embedding,利用最近邻策略,挑选另一语言的词语的embedding作为其翻译结果,从而构建较大规模的双语字典在计算embedding相似度方面,采用cross-domain similarity local scaling (CSLS) metric(Lample et al., 2018)实现。

4.  利用3中的翻译将英语命名实体识别语料译为另一语言,同时保留命名实体标签,用于NER模型的训练

下图是上述过程的一个示意,语言对为英语-西班牙语:

模型

NER模型方面,作者采用了一个分层神经网络+self-attention+CRF的序列标注方案:其中输入粒度被细化到了char级,每个单词的字母都通过双向RNN融合得到,此基础上再通过一层双向RNN做词级别的embedding,之后使用self-attention对得到的每个词的embedding做一步转换得到embedding_a,而后将embedding与embedding_a进行组合,得到用于训练CRF序列标注过程的单词表示。

实验

数据集

实验数据方面,作者采用了CoNLL 2002以及2003 NER公开数据集,其中包含英德荷及西班牙语共四种语言,通过将英语与其他三种语言组合为“资源丰富-资源缺乏”的语言组合,构建出上述方法所需的数据形式。

实验结果

表1 反映了本文方法在公开数据集上的实验,采用F1值作为评价指标,结果上看,相对其他同类模型,本方法的性能提升较为显著。

同时作者也针对embedding过程的效果进行统计评判,这种使用近邻进行翻译的方法,在双语性能上表现出了一定提升。

同时作者也对小语种维吾尔语进行了NER实验对比,在无额外知识补充的且使用微量平行数据的情况下,本文增量模型的性能提升还是比较明显。但是整体结果上,相对目前最好的模型差距还是是否明显,作者认为产生这一情况的原因在于维吾尔语极低的单语质量,且英语和维吾尔语之间的天然差异本身就非常的大。


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别相关推荐

  1. 论文浅尝 | 基于图卷积网络的跨语言图谱实体对齐

    论文笔记整理:谭亦鸣,东南大学博士生,研究兴趣:知识图谱问答 本文提出了一种基于图卷积网络的跨语言实体对齐方法,通过设计一种属性 embedding 用于 GCN 的训练,发现GCN能同时学习到特征 ...

  2. 论文浅尝 | 利用Lattice LSTM的最优中文命名实体识别方法

    本文转载自公众号:机器之心. 选自arXiv 作者:Yue Zhang.Jie Yang 机器之心编译 参与:路.王淑婷 近日,来自新加坡科技设计大学的研究者在 arXiv 上发布了一篇论文,介绍了一 ...

  3. 论文浅尝 - EMNLP2020 | 通过词重排序跨语言解析

    笔记整理 | 吴林娟,天津大学硕士 来源:EMNLP2020 链接:https://www.aclweb.org/anthology/2020.findings-emnlp.265.pdf 动机 依赖 ...

  4. 论文浅尝 | 基于注意力图卷积神经网络的依存驱动关系抽取

    笔记整理:王大壮 论文链接:https://aclanthology.org/2021.acl-long.344.pdf 动机 句法信息,特别是依存树,已经被广泛应用于关系提取,以更好地分析与给定实体 ...

  5. 论文浅尝 | 面向自动问题生成的跨语言训练

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答. 来源:ACL 2019 链接:https://128.84.21.199/pdf/1906.02525.pdf 动机 现有问题生成 ...

  6. ###好好好#######论文浅尝 | 基于图注意力的常识对话生成

    论文浅尝 | 基于图注意力的常识对话生成 OpenKG 祝各位读者新春快乐,猪年吉祥! 来源:IJCAI 2018. 论文下载地址:https://www.ijcai.org/proceedings/ ...

  7. 基于BERT+BiLSTM+CRF的中文景点命名实体识别

    赵平, 孙连英, 万莹, 葛娜. 基于BERT+BiLSTM+CRF的中文景点命名实体识别. 计算机系统应用, 2020, 29(6): 169-174.http://www.c-s-a.org.cn ...

  8. 论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习

    本文转载自公众号:PaperWeekly. 作者丨罗凌 学校丨大连理工大学博士生 研究方向丨深度学习,文本分类,实体识别 联合学习(Joint learning)一词并不是一个最近才出现的术语,在自然 ...

  9. 论文浅尝 | 基于知识库的自然语言理解 01#

    本文转载自公众号:知识工场. 罗康琦,上海交通大学计算机系2019届博士,研究方向为自然语义理解和知识图谱.2012年获得华中科技大学软件工程学士学位,现就职于京东数据科学实验室(Data Scien ...

最新文章

  1. 什么猫咪最受欢迎?Python爬取全网猫咪图片,哪一款是你最爱的
  2. weblogic创建域后启动不了_WebLogic的Azure虚拟机主要版本发布
  3. 独家 | creditR 的基于实践的导论:一个神奇的改良信用风险评分和验证的R包(附代码)...
  4. 关于kali相关的参考文章
  5. MySQL-InnoDB引擎
  6. 拓展欧几里得小结(初级理解)
  7. setState是异步还是同步?
  8. OpenGL基础26:Assimp库
  9. EMD(经验模态分解)
  10. 苹果商城怎么调成中文_海豚加速器拳头账号中文注册下载-海豚加速器拳头账号注册下载 v2020...
  11. Flutter调用JSON序列化出现type ‘String‘ is not a subtype of type ‘MapString, dynamic‘
  12. [游戏杂谈]浅谈单机游戏制作人到底应该具备什么样的能力
  13. tp5接收前台传的值_tp5数据接收
  14. 【Android容器组件—LinearLayout】
  15. ENE轨道线的选股公式
  16. Windows Server 2008 R2下安装卸载Oracle 11g
  17. C语言随机数:rand()和srand(time(NULL))的使用
  18. 说说wps jsa的ListBox控件的数组写入方法
  19. 敏捷团队的规范与准则
  20. 科学计算机程序 字表处理软件都是,计算机应用基础知识--1

热门文章

  1. Redis pub/sub机制在实际运用场景的理解(转载)
  2. 一个整数转换成字符串(C/C++自己写的算法)
  3. 想要学好C++有哪些技巧?
  4. Linux一定需要文件系统吗?
  5. php读取三维数组,php 读取多维数组方法_PHP教程
  6. android人脸识别demo_零门槛解决Windows人脸识别应用开发难题
  7. LeetCode 2194. Excel 表中某个范围内的单元格
  8. python web开发 JavaScript基础
  9. LeetCode 954. 二倍数对数组(map计数)
  10. LeetCode 1469. 寻找所有的独生节点