NAACL 2018 | 最佳论文：艾伦人工智能研究所提出新型深度语境化词表征

选自arXiv

机器之心编译

参与：路、张倩

不久之前，NAACL 2018 最佳论文公布，机器之心曾介绍了其中一篇（共四篇）。此文介绍了来自艾伦人工智能研究所和华盛顿大学的研究者所著论文《Deep contextualized word representations》，该研究提出了一种新型深度语境化词表征，可对词使用的复杂特征（如句法和语义）和词使用在语言语境中的变化进行建模（即对多义词进行建模）。这些表征可以轻松添加至已有模型，并在 6 个 NLP 问题中显著提高当前最优性能。

1 引言

预训练词表征（Mikolov et al., 2013; Pennington et al., 2014）是很多神经语言理解模型的关键部分。然而，学习高质量词表征非常有难度。它们应该完美建模单词使用方面的复杂特征（如句法和语义），以及单词使用在不同语言环境下的变化（即建模一词多义）。本论文介绍了一种新型深度语境化词表征（deep contextualized word representation），可以直接应对这些挑战，且这种表征能够轻松整合进现有模型，极大地提升大量有难度的语言理解问题中每个用例的当前最优性能。

本论文提出的表征与传统的词嵌入不同，每个 token 分配一个表征——即整个输入句子的函数。研究者使用从双向 LSTM 中得到的向量，该 LSTM 是使用成对语言模型（LM）目标在大型文本语料库上训练得到的。因此，该表征叫作 ELMo（Embeddings from Language Models）表征。与之前学习语境化词向量的方法（Peters et al., 2017; McCann et al., 2017）不同，ELMo 表征是深层的，即它们是 biLM 所有内部层的函数。具体来说，对于每个任务，学习堆叠在每个输入单词上的向量线性组合，这可以显著提升性能，效果优于仅使用 LSTM 顶层的表征。

用这种方式组合内部状态可以带来丰富的词表征。研究者使用内在评价进行评估，结果显示更高级别的 LSTM 状态捕捉词义的语境依赖方面（如它们不经修改就可以执行监督式词义消歧任务，且表现良好），而较低级别的状态建模句法结构（如它们可用于词性标注任务）。同时揭示所有这些信号是非常有益的，可以帮助学得的模型选择对每个任务最有帮助的半监督信号。

大量实验证明 ELMo 表征在实践中效果优异。研究者首先展示可在六个不同且有难度的语言理解问题上（包括文本蕴涵、问答和情感分析等），将 ELMo 表征轻松添加至现有模型。添加 ELMo 表征可以显著提高每个用例中的当前最优性能，包括将相对误差降低 20%。对于允许直接对比的任务，ELMo 优于 CoVe（McCann et al., 2017），后者使用神经机器翻译编码器计算语境化表征。最后，对 ELMo 和 CoVe 的分析结果显示深层表征优于仅从 LSTM 顶层获取的表征。本研究中训练的模型和代码已公开，研究者期望 ELMo 为其他 NLP 问题提供类似的帮助。

3. ELMo：来自语言模型的嵌入

与广泛使用的词嵌入（Pennington et al., 2014）不同，ELMo 词表征是整个输入句子的函数。这些表征是在两层 biLM 上使用字符卷积计算出来的，作为内部网络状态的线性函数（如 3.2 所述）。这种设定允许我们进行半监督学习，在学习中，biLM 进行大规模的预训练且能够轻易整合进大量现有神经 NLP 架构。

3.2 ELMo

ELMo 是 biLM 中间层表征的任务特定组合。对于每个 token t_k，L-layer biLM 计算一组表征（包含 2L + 1 个）

公式中的是 token 层，对于每个 biLSTM 层，有。为了包含在下游模型中，ELMo 将 R 中的所有层折叠成单个向量，。在最简单的情况下，ELMo 只选择顶层，，如 TagLM（Peters et al., 2017）和 CoVe（McCann et al., 2017）。简言之，研究者计算所有 biLM 层的任务特定权重：

（1）中，s^task 是 softmax 归一化权重，标量参数 γ^task 允许任务模型扩展至整个 ELMo 向量。在实践中，γ 对优化过程有益（详见补充材料）。鉴于每个 biLM 层的激活函数都有不同的分布，在一些情况下，γ 还有助于在加权之前对每个 biLM 层应用层归一化（Ba et al., 2016）。

4 评估

表 1：ELMo 增强神经模型和当前最优（SOTA）单个模型基线在六个 NLP 基准任务上的测试集性能对比。不同任务的性能指标不同：对于 SNLI 和 SST-5 是准确率，对于 SQuAD、SRL 和 NER 是 F1，对于 Coref 是平均 F1。由于 NER 和 SST-5 的测试集较小，研究者的报告结果是使用不同的随机种子进行的五次运行的均值和标准差。「INCREASE」列是基线模型的绝对和相对改进。

图 1：基线和 ELMo 在 SNLI 和 SRL 上的性能对比，训练集规模的变化幅度是 0.1% 到 100%。

论文：Deep contextualized word representations

论文链接：https://arxiv.org/pdf/1802.05365.pdf

摘要：在本论文中，我们介绍了一种新型深度语境化词表征，可对词使用的复杂特征（如句法和语义）和词使用在语言语境中的变化进行建模（即对多义词进行建模）。我们的词向量是深度双向语言模型（biLM）内部状态的函数，在一个大型文本语料库中预训练而成。本研究表明，这些表征能够被轻易地添加到现有的模型中，并在六个颇具挑战性的 NLP 问题（包括问答、文本蕴涵和情感分析）中显著提高当前最优性能。此外，我们的分析还表明，揭示预训练网络的深层内部状态至关重要，可以允许下游模型综合不同类型的半监督信号。

NAACL 2018 | 最佳论文：艾伦人工智能研究所提出新型深度语境化词表征相关推荐

自然语言处理顶会 NAACL 2018 最佳论文、时间检验论文揭晓
转自:http://baijiahao.baidu.com/s?id=1598532519899884367&wfr=spider&for=pc 雷锋网 AI 科技评论按:ACL.EM ...
COLING 2018 最佳论文解读：序列标注经典模型复现
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
BERT拿下最佳长论文奖！NAACL 2019最佳论文奖公布
点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」全日程揭晓,请扫码咨询 ↑↑↑ 作者 | 刘静编辑 | 李尔客本文经授权转自公众号图灵Topia(ID:turingtopia) 今 ...
ECCV 2018最佳论文解读：基于解剖结构的面部表情生成
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
复现计算机论文模型,COLING 2018 最佳论文解读：序列标注经典模型复现
原标题:COLING 2018 最佳论文解读:序列标注经典模型复现在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点 ...
祝贺| 蚂蚁金服年轻交互设计师陈凯翔，荣获HCII 2018 最佳论文奖
小蚂蚁说: 科技作为21世界最重要的关键词之一,本身就是自带光环的存在,而作为人们畅想未来科技生活最为直观的方式,众多的科幻作品也一直为科技迷们所津津乐道.从经典科幻电影<她>.<人 ...
ACL 2018最佳论文公布！计算语言学最前沿研究都在这里了
国际计算语言学协会 (ACL,The Association for Computational Linguistics),是世界上影响力最大.最具活力的国际学术组织之一,其会员遍布世界各地.ACL ...
CCKS 2018 | 最佳论文：南京大学提出 DSKG，将多层 RNN 用于知识图谱补全
本文转载自公众号:机器之心. 选自CCKS 2018 作者:Lingbing Guo.Qingheng Zhang.Weiyi Ge.Wei Hu.Yuzhong Qu 机器之心编译参与:Panda ...
CCKS 2018 | 最佳论文：南京大学提出DSKG，将多层RNN用于知识图谱补全
作者:Lingbing Guo.Qingheng Zhang.Weiyi Ge.Wei Hu.Yuzhong Qu 2018 年 8 月 14-17 日,主题为「知识计算与语言理解」的 2018 全国 ...
硬核NeruIPS 2018最佳论文，一个神经了的常微分方程
机器之心原创作者:蒋思源这是一篇神奇的论文,以前一层一层叠加的神经网络似乎突然变得连续了,反向传播也似乎不再需要一点一点往前传.一层一层更新参数了. 在最近结束的 NeruIPS 2018 中,来 ...

NAACL 2018 | 最佳论文：艾伦人工智能研究所提出新型深度语境化词表征

NAACL 2018 | 最佳论文：艾伦人工智能研究所提出新型深度语境化词表征相关推荐

最新文章

热门文章