ELMo：最好用的词向量（Deep contextualized word representations）论文 pdf

下载地址：https://u20150046.ctfile.com/fs/20150046-376633397

作者：Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer

论文摘要

我们提出一种新的深层语境化的词表示形式，它既模拟了词使用的复杂特征(如语法和语义)，也模拟了这些用法在不同语言语境中的变化(即，一词多义)。我们的词向量是一个深度双向语言模型(biLM)内部状态的学习函数，该模型是在一个大型文本语料库上预训练的。我们证明，这些表示可以很容易地添加到现有的模型中，并在六个具有挑战性的NLP问题(包括问题回答、文字蕴涵和情感分析)中显著地提升了技术的最先进水平。我们还提供了一项分析，表明暴露预训练网络的深层内部结构是至关重要的，它允许下游模型混合不同类型的半监督信号。

概要总结

艾伦人工智能研究所的团队提出一种新型的深层语境化单词表示——语言模型嵌入(Embeddings from Language Models, ELMo)。在ELMo增强的模型中，每个单词都是基于它所使用的整个上下文向量化的。在现有的NLP系统中加入ELMo可以减少6-20%的相对误差，显著减少训练模型所需的时间，以及显著减少达到基线性能所需的训练数据量。

核心思想

1.以深度双向语言模型(biLM)的内部状态加权和的形式生成词嵌入，该模型在大型文本语料库上预训练。

2.要包含来自所有biLM层的表示，因为不同的层代表不同类型的信息。

3.将ELMo表示建立在字符的基础上，以便网络可以使用形态学线索“理解”训练中未见的词汇表外的token。

最重要的成果

1.将ELMo添加到模型中可以得到state-of-the-art的结果，在问题回答、文字蕴涵、语义角色标记、相关引用解析、命名实体提取和情绪分析等NLP任务中，相对误差降低了6 - 20%。

2.使用ELMo增强模型可以显著减少达到最先进性能所需的更新次数。因此，使用ELMo的语义角色标记(SRL)模型只需要10 epochs就可以超过486 epochs训练后达到的基线最大值。

3.将ELMo引入模型还可以显著减少实现相同性能水平所需的训练数据量。例如，对于SRL任务，ELMo增强模型只需要训练集的1%就可以实现与基线模型相同的性能，而基线模型需要10%的训练数据。

AI社区的评价

1.这篇论文在全球最具影响力的NLP会议之一——NAACL上被评为Outstanding paper。

2.论文提出的ELMo方法被认为是2018年NLP领域最大的突破之一，也是NLP未来几年的重要成果。

未来研究方向

1.通过将ELMos与上下文无关的词嵌入连接起来，将这种方法合并到特定的任务中。

2.将ELMos与输出连接。

可能的应用

1.ELMo显著改善了现有NLP系统的性能，从而增强：

2.聊天机器人的性能，使其能够更好地理解人类和回答问题；

3.对客户的正面和负面评价进行分类;

4.查找相关信息和文件等。