下载地址:https://u20150046.ctfile.com/fs/20150046-376633397

作者:Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer

论文摘要

我们提出一种新的深层语境化的词表示形式,它既模拟了词使用的复杂特征(如语法和语义),也模拟了这些用法在不同语言语境中的变化(即,一词多义)。我们的词向量是一个深度双向语言模型(biLM)内部状态的学习函数,该模型是在一个大型文本语料库上预训练的。我们证明,这些表示可以很容易地添加到现有的模型中,并在六个具有挑战性的NLP问题(包括问题回答、文字蕴涵和情感分析)中显著地提升了技术的最先进水平。我们还提供了一项分析,表明暴露预训练网络的深层内部结构是至关重要的,它允许下游模型混合不同类型的半监督信号。

概要总结

艾伦人工智能研究所的团队提出一种新型的深层语境化单词表示——语言模型嵌入(Embeddings from Language Models, ELMo)。在ELMo增强的模型中,每个单词都是基于它所使用的整个上下文向量化的。在现有的NLP系统中加入ELMo可以减少6-20%的相对误差,显著减少训练模型所需的时间,以及显著减少达到基线性能所需的训练数据量。

核心思想

1.以深度双向语言模型(biLM)的内部状态加权和的形式生成词嵌入,该模型在大型文本语料库上预训练。

2.要包含来自所有biLM层的表示,因为不同的层代表不同类型的信息。

3.将ELMo表示建立在字符的基础上,以便网络可以使用形态学线索“理解”训练中未见的词汇表外的token。

最重要的成果

1.将ELMo添加到模型中可以得到state-of-the-art的结果,在问题回答、文字蕴涵、语义角色标记、相关引用解析、命名实体提取和情绪分析等NLP任务中,相对误差降低了6 - 20%。

2.使用ELMo增强模型可以显著减少达到最先进性能所需的更新次数。因此,使用ELMo的语义角色标记(SRL)模型只需要10 epochs就可以超过486 epochs训练后达到的基线最大值。

3.将ELMo引入模型还可以显著减少实现相同性能水平所需的训练数据量。例如,对于SRL任务,ELMo增强模型只需要训练集的1%就可以实现与基线模型相同的性能,而基线模型需要10%的训练数据。

AI社区的评价

1.这篇论文在全球最具影响力的NLP会议之一——NAACL上被评为Outstanding paper。

2.论文提出的ELMo方法被认为是2018年NLP领域最大的突破之一,也是NLP未来几年的重要成果。

未来研究方向

1.通过将ELMos与上下文无关的词嵌入连接起来,将这种方法合并到特定的任务中。

2.将ELMos与输出连接。

可能的应用

1.ELMo显著改善了现有NLP系统的性能,从而增强:

2.聊天机器人的性能,使其能够更好地理解人类和回答问题;

3.对客户的正面和负面评价进行分类;

4.查找相关信息和文件等。

ELMo:最好用的词向量(Deep contextualized word representations)论文 pdf相关推荐

  1. Paper:《ELMO:Deep contextualized word representations》翻译与解读

    Paper:<ELMO:Deep contextualized word representations>翻译与解读 目录 <ELMO:Deep contextualized wor ...

  2. Deep contextualized word representations

    引言 这是2018年NAACL上的Best Paper,即是大名鼎鼎的ELMo,原文地址:https://arxiv.org/pdf/1802.05365.pdf 对比传统Word2Vec这种形式的词 ...

  3. 文献阅读 - Deep Contextualized Word Representations

    Deep Contextualized Word Representations M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, et al., Dee ...

  4. 论文笔记--Deep contextualized word representations

    论文笔记--Deep contextualized word representations 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 BiLM(Bidirectional Langu ...

  5. ELMo: Deep contextualized word representations

    Abstract 本文介绍一种新型的上下文词表示可以建模: 词的复杂用法特征(例如句法或者语义特征) 在不同的语言上下文中的用法变化(例如多义词) 我们的词向量是学到的深度双向语言模型(biLM)内部 ...

  6. 文本分类 之 有Attention的词向量平均模型 Word Average Model with Attention

    这是一个文本分类的系列专题,将采用不同的方法有简单到复杂实现文本分类. 使用Stanford sentiment treebank 电影评论数据集 (Socher et al. 2013). 数据集可 ...

  7. 词袋模型(BOW,bag of words)和词向量模型(Word Embedding)理解

    Word2vec 向量空间模型在信息检索中是众所周知的,其中每个文档被表示为向量.矢量分量表示文档中每个单词的权重或重要性.使用余弦相似性度量计算两个文档之间的相似性. 尽管对单词使用矢量表示的想法也 ...

  8. 整理常用的中英文预训练词向量(Pretrained Word Vectors)

    文章目录 引言 腾讯中文词汇/短语向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases) 使用方法 中文词向量语料库 by ...

  9. 词向量相似性(Word Similarity)、类比任务(Word Analogy)实验数据

    词向量验证的方法通常有: 词的相似性任务(Word Similarity) 以及 词的类比任务 (Word Analogy). 词的相似性任务-Word Similarity 常用的英文数据集:Wor ...

最新文章

  1. C++ OP相关注意事项
  2. Node.js 快速了解
  3. Uedit32安装教程附安装包资源
  4. os.walk() 遍历目录下的文件夹和文件
  5. 1.django 开发环境搭建
  6. 关于bootstrap-table服务端分页问题
  7. PPT优秀模板|7个技巧,让你的设计呈现更加完美
  8. 使用XmlPullParser解析XML
  9. 数据库篇之[bsp_orders]数据表-BrnShop1.9升级至2.1升级说明(非官方版本)
  10. jQuery 插件使用记录
  11. java拆装箱(转)
  12. word转Html的实现方案
  13. 计算机分磁盘,磁盘分区怎么分
  14. iperf3网络测速
  15. linux wps怎么改成中文字体,WPS文字的 字体设置功能
  16. java文件一行一行读取_java一行一行写入或读取文件
  17. ConcurrentHashMap插入与遍历时出现混乱
  18. 移动端图文直播技术方案的分析
  19. 如何判断生成的交易策略(EA)是好是坏?
  20. 基础训练---身体素质

热门文章

  1. 如何创建企业转型路线图
  2. Educational Codeforces Round 9 F. Magic Matrix 最小生成树
  3. 要立刷金组flag了T_T
  4. iOS 跑马灯封装(带点击事件)
  5. 从产品的适用性以及费用方面考虑
  6. ReSharper修改命名风格
  7. 用WinForm/WPF代码来为.NET Core 3.0功能投票
  8. CART树 python小样例
  9. windows服务搭建及命令总结
  10. ubuntu下安装ftp服务器