论文浅尝 - EMNLP2020 | 通过词重排序跨语言解析
笔记整理 | 吴林娟,天津大学硕士
来源:EMNLP2020
链接:https://www.aclweb.org/anthology/2020.findings-emnlp.265.pdf
动机
依赖解析研究快速发展,然而依赖解析的性能在很大程度上依赖于语料库的大小。获取足够的训练数据成本大且困难,基于机器学习的方法不能简单地应用于低资源语言的依赖解析。跨语言迁移的方法以及在POS、依赖解析、命名实体识别、实体链接、问答等低资源语言任务上获得了成功的应用。但是跨语言迁移的一个关键挑战是难以处理源语言和目标语言之间的词序差异,于是作者针对这个问题提出了通过词重排序跨语言解析(Cross lingUal paRSing by wOrd Reordering,CURSOR)的方法。
亮点
CURSOR的亮点主要是:将词的重新排序形式化为一个组合优化问题,并开发了一个基于种群的优化算法来寻找接近最优的重新排序结果。
概念及模型
问题定义
在源数据集S里,给定一个句子,目标是对句子中的单词进行排列,模仿目标语言中的顺序。为了测量排列的优劣,使用多层LSTM在目标语料库上训练一个基于POS任务的语言模型。句子可以表示为:
目标是可以找到一个排列,这个重新排序的句子是由语言模型估计获得最高概率的:
其中R(x)是x中单词的所有可能排列的集合。理论上,候选者的总个数是n!,而大多数的排列可能与原句意思不同。为了避免这种情况,作者在生成R(x)时应用了一个语法约束:在原句子中构成成分的子序列在重新排序后仍然是子序列,而子序列中单词的内部顺序可能会发生变化。
基于种群的优化
式(2)中最优的可以归结为一个著名的旅行推销员问题,是NP-hard的。因此,最优排序在计算上是困难的,作者设计了一个遗传算法来寻找接近最优的结果。
遗传算法是一种来自于自然选择过程的启发式搜索方法,它通过迭代的方式将候选解群体进化为更好的解。每一次迭代的总体称为一代。该算法首先执行初始化操作符来创建初始生成。在每一代中,对种群中每一个个体的适应度进行评估,通过应用选择算子,使适应度得分较高的个体有更多的机会繁殖下一代。下一代是通过两种遗传操作符的结合产生的:交叉和变异。交叉算子将双亲的遗传信息结合在一起产生新的后代,而突变算子将多样性引入到抽样群体中。遗传算法在解决组合优化问题方面表现得很好,适用于单词重排问题。
为了满足语法约束,作者在子树层次上设计了交叉和变异操作符,即当一个单词被移动到其他地方时,它的子树也被移动。
整体算法
实验
作者通过将在英语语料库上训练的四种不同的解析模型转移到30种目标语言来评估CURSOR,并提出了一种结合的方法来进一步提高性能。实验结果如下:
从表1中可以看出,与基线相比,在词汇重排后的语料库上训练了四种不同的解析模型,跨语言迁移性能都得到了提高。使用RNN编码器的模型比使用SelfAtt编码器的模型受益更多,可能是因为它们对词序更敏感。通过treebank重新排序增强的RNN-Graph模型获得了最佳的平均UAS(66.6%),比基线高出2.5%。对于那些词序与英语截然不同的语言,如印地语(hi)和拉丁语(la),这些改进是非常重要的。
作者研究了跨语言迁移的性能与源语言和目标语言的相似性之间的关系,以及迁移方向和迁移解析距离的差异对迁移性能的影响。证明了目标语言和源语言越相似,迁移性能越好。而且CURSOR方法可以很好地消除迁移方向的影响,模型在预测长距离依赖时,对语序的正确性更加敏感。
总结
作者提出了一种用于跨语言依赖分析的树库重新排序方法,不需要任何并行语料库,并且可以应用于任何一对源语言和目标语言,但是条件为POS标记可用。在30种语言的不同网络架构中进行的大量实验表明,论文提出的方法可以显著提高跨语言解析的性能。但是面向POS标记数据为低资源的语言,该方法不太适用,这一点可以留给我们读者继续思考的空间。
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 网站。
论文浅尝 - EMNLP2020 | 通过词重排序跨语言解析相关推荐
- 论文浅尝 | 基于图卷积网络的跨语言图谱实体对齐
论文笔记整理:谭亦鸣,东南大学博士生,研究兴趣:知识图谱问答 本文提出了一种基于图卷积网络的跨语言实体对齐方法,通过设计一种属性 embedding 用于 GCN 的训练,发现GCN能同时学习到特征 ...
- 论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)
本文转载自公众号:PaperWeekly.作者:王文博,哈尔滨工程大学硕士生,研究方向为知识图谱.表示学习. 动机 在本篇文章之前,跨语言知识图谱对齐研究仅依赖于从单语知识图谱结构信息中获得的实体嵌入 ...
- 论文浅尝 | 面向自动问题生成的跨语言训练
论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答. 来源:ACL 2019 链接:https://128.84.21.199/pdf/1906.02525.pdf 动机 现有问题生成 ...
- 论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别
论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答. 来源:EMNLP 2018 链接:https://www.aclweb.org/anthology/D18-1034 问题背景与动 ...
- 论文浅尝 | AMUSE: 基于 RDF 数据的多语言问答语义解析方法
来源:ISWC 2017 链接:https://link.springer.com/content/pdf/10.1007%2F978-3-319-68288-4.pdf 本文主要关注基于RDF数据的 ...
- 论文浅尝 - EMNLP2020 | 低资源跨语言实体链接中的设计挑战
论文笔记整理:谭亦鸣,东南大学博士. 来源:EMNLP 2020 链接:https://arxiv.org/pdf/2005.00692.pdf 1.背景介绍 跨语言实体链接(XEL)旨在将任一非英语 ...
- 论文浅尝 - EMNLP2020 | 图结构对于多跳问答而言必要吗?
笔记整理 | 陈卓,浙江大学计算机科学与技术系,博士研究生 研究方向 | 知识图谱,图神经网络,多模态 论文链接:https://www.aclweb.org/anthology/2020.emnlp ...
- 论文浅尝 - EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示
笔记整理 | 陈卓,浙江大学计算机科学与技术系,博士研究生 研究方向 | 知识图谱/图神经网络/多模态 论文链接:https://www.aclweb.org/anthology/2020.findi ...
- 论文浅尝 - EMNLP2020 | 基于规则引导的协作 agent 知识图谱推理学习
论文笔记整理:叶橄强,浙江大学在读硕士,研究方向为知识图谱的表示学习和预训练. 来源:EMNLP 2020 现有的大多数基于行走的模型通过在提供可解释的决策的同时获得良好的性能,在知识图谱推理中显示出 ...
最新文章
- python celery
- [微信开发] 开发指南笔记
- Settings(系统设置app)
- 全面覆盖CV任务!这个国产“书生”只学10%内容,性能就超越同行
- 【高德地图开发1】---简介
- 微型计算机与维修自测,微机系统及维护第三章自测.doc
- java 原子类能做什么_Java原子类中可以靠版本号比较为什么还需要CAS操作??
- python自定义函数画图_4.1-5 自定义函数
- 集成直流稳压电源设计报告_线性直流稳压电源结构,线性直流电源技术指标
- Docker Java程序镜像制作
- Node.js使用supervisor遭遇‘supervisor’不是内部或外部命令,如果解决?
- 敏捷开发一千零一问系列之十三:故事点好还是人天好?
- OpenCV-向上采样cv::pyrUp向下采样cv::pyrDown
- python怎么读写文件-Python 文件I/O
- plt.plot绘图
- Memcached:高性能分布式对象缓存系统
- fseek函数、ftell函数、rewind函数详解
- 电脑计算机稳定删除垃圾游戏,电脑卡怎么办简单步骤_如何清理电脑垃圾
- Protel99se中文版PCB负片输出
- 技术干货|如何在微服务架构下构建高效的运维管理平台?
热门文章
- js的oop方式和this指针问题
- 这5个bug我不信你没有写过
- 首个开源 Linux 系统登陆火星,占有率超 Windows,一同登录还有一款安卓手机芯片...
- 都2021年了,c/c++开发竟然还能继续吃香??
- 大华管理平台用户名_智能财务引领商业与管理变革——浙大EMBA首席财务官研习社走进大华股份...
- python中import os_Python常用模块os--与操作系统交互
- pandas处理日期的几种常用方法
- LeetCode 2195. 向数组中追加 K 个整数(贪心)
- LeetCode 1653. 使字符串平衡的最少删除次数(DP)
- LeetCode 1638. 统计只差一个字符的子串数目(DP)