ELMo:最好用的词向量(Deep contextualized word representations)论文 pdf
下载地址:https://u20150046.ctfile.com/fs/20150046-376633397
作者:Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer
论文摘要
我们提出一种新的深层语境化的词表示形式,它既模拟了词使用的复杂特征(如语法和语义),也模拟了这些用法在不同语言语境中的变化(即,一词多义)。我们的词向量是一个深度双向语言模型(biLM)内部状态的学习函数,该模型是在一个大型文本语料库上预训练的。我们证明,这些表示可以很容易地添加到现有的模型中,并在六个具有挑战性的NLP问题(包括问题回答、文字蕴涵和情感分析)中显著地提升了技术的最先进水平。我们还提供了一项分析,表明暴露预训练网络的深层内部结构是至关重要的,它允许下游模型混合不同类型的半监督信号。
概要总结
艾伦人工智能研究所的团队提出一种新型的深层语境化单词表示——语言模型嵌入(Embeddings from Language Models, ELMo)。在ELMo增强的模型中,每个单词都是基于它所使用的整个上下文向量化的。在现有的NLP系统中加入ELMo可以减少6-20%的相对误差,显著减少训练模型所需的时间,以及显著减少达到基线性能所需的训练数据量。
核心思想
1.以深度双向语言模型(biLM)的内部状态加权和的形式生成词嵌入,该模型在大型文本语料库上预训练。
2.要包含来自所有biLM层的表示,因为不同的层代表不同类型的信息。
3.将ELMo表示建立在字符的基础上,以便网络可以使用形态学线索“理解”训练中未见的词汇表外的token。
最重要的成果
1.将ELMo添加到模型中可以得到state-of-the-art的结果,在问题回答、文字蕴涵、语义角色标记、相关引用解析、命名实体提取和情绪分析等NLP任务中,相对误差降低了6 - 20%。
2.使用ELMo增强模型可以显著减少达到最先进性能所需的更新次数。因此,使用ELMo的语义角色标记(SRL)模型只需要10 epochs就可以超过486 epochs训练后达到的基线最大值。
3.将ELMo引入模型还可以显著减少实现相同性能水平所需的训练数据量。例如,对于SRL任务,ELMo增强模型只需要训练集的1%就可以实现与基线模型相同的性能,而基线模型需要10%的训练数据。
AI社区的评价
1.这篇论文在全球最具影响力的NLP会议之一——NAACL上被评为Outstanding paper。
2.论文提出的ELMo方法被认为是2018年NLP领域最大的突破之一,也是NLP未来几年的重要成果。
未来研究方向
1.通过将ELMos与上下文无关的词嵌入连接起来,将这种方法合并到特定的任务中。
2.将ELMos与输出连接。
可能的应用
1.ELMo显著改善了现有NLP系统的性能,从而增强:
2.聊天机器人的性能,使其能够更好地理解人类和回答问题;
3.对客户的正面和负面评价进行分类;
4.查找相关信息和文件等。
ELMo:最好用的词向量(Deep contextualized word representations)论文 pdf相关推荐
- Paper:《ELMO:Deep contextualized word representations》翻译与解读
Paper:<ELMO:Deep contextualized word representations>翻译与解读 目录 <ELMO:Deep contextualized wor ...
- Deep contextualized word representations
引言 这是2018年NAACL上的Best Paper,即是大名鼎鼎的ELMo,原文地址:https://arxiv.org/pdf/1802.05365.pdf 对比传统Word2Vec这种形式的词 ...
- 文献阅读 - Deep Contextualized Word Representations
Deep Contextualized Word Representations M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, et al., Dee ...
- 论文笔记--Deep contextualized word representations
论文笔记--Deep contextualized word representations 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 BiLM(Bidirectional Langu ...
- ELMo: Deep contextualized word representations
Abstract 本文介绍一种新型的上下文词表示可以建模: 词的复杂用法特征(例如句法或者语义特征) 在不同的语言上下文中的用法变化(例如多义词) 我们的词向量是学到的深度双向语言模型(biLM)内部 ...
- 文本分类 之 有Attention的词向量平均模型 Word Average Model with Attention
这是一个文本分类的系列专题,将采用不同的方法有简单到复杂实现文本分类. 使用Stanford sentiment treebank 电影评论数据集 (Socher et al. 2013). 数据集可 ...
- 词袋模型(BOW,bag of words)和词向量模型(Word Embedding)理解
Word2vec 向量空间模型在信息检索中是众所周知的,其中每个文档被表示为向量.矢量分量表示文档中每个单词的权重或重要性.使用余弦相似性度量计算两个文档之间的相似性. 尽管对单词使用矢量表示的想法也 ...
- 整理常用的中英文预训练词向量(Pretrained Word Vectors)
文章目录 引言 腾讯中文词汇/短语向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases) 使用方法 中文词向量语料库 by ...
- 词向量相似性(Word Similarity)、类比任务(Word Analogy)实验数据
词向量验证的方法通常有: 词的相似性任务(Word Similarity) 以及 词的类比任务 (Word Analogy). 词的相似性任务-Word Similarity 常用的英文数据集:Wor ...
最新文章
- C++ OP相关注意事项
- Node.js 快速了解
- Uedit32安装教程附安装包资源
- os.walk() 遍历目录下的文件夹和文件
- 1.django 开发环境搭建
- 关于bootstrap-table服务端分页问题
- PPT优秀模板|7个技巧,让你的设计呈现更加完美
- 使用XmlPullParser解析XML
- 数据库篇之[bsp_orders]数据表-BrnShop1.9升级至2.1升级说明(非官方版本)
- jQuery 插件使用记录
- java拆装箱(转)
- word转Html的实现方案
- 计算机分磁盘,磁盘分区怎么分
- iperf3网络测速
- linux wps怎么改成中文字体,WPS文字的 字体设置功能
- java文件一行一行读取_java一行一行写入或读取文件
- ConcurrentHashMap插入与遍历时出现混乱
- 移动端图文直播技术方案的分析
- 如何判断生成的交易策略(EA)是好是坏?
- 基础训练---身体素质