https://www.toutiao.com/a6685590156130386445/

深层上下文化的单词表示

题目:

Deep contextualized word representations

作者:

Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer

来源:

NAACL 2018. Originally posted to openreview 27 Oct 2017. v2 updated for NAACL camera ready

Computation and Language (cs.CL)

Submitted on 25 May 2016

文档链接:

arXiv:1802.05365

代码链接:

https://github.com/zalandoresearch/flair

https://github.com/dmlc/gluon-nlp

https://github.com/allenai/bilm-tf

摘要

我们引入了一种新的深层上下文化的单词表示,它对单词使用的复杂特性(例如语法和语义)和这些用法如何在不同的语言环境中变化(例如,,以模拟一词多义)。我们的词向量是一个深层双向语言模型(biLM)的内部状态的学习函数,它是在一个大型文本语料库上预先训练的。我们表明,这些表示可以很容易地添加到现有的模型中,并通过6个具有挑战性的NLP问题(包括问题回答、文本蕴涵和情感分析)显著改善现有模型的状态。我们还提出了一项分析,显示出预先训练的网络的深层内部结构是至关重要的,允许下游模型混合不同类型的半监督信号。

英文原文

We introduce a new type of deep contextualized word representation that models both (1) complex characteristics of word use (e.g., syntax and semantics), and (2) how these uses vary across linguistic contexts (i.e., to model polysemy). Our word vectors are learned functions of the internal states of a deep bidirectional language model (biLM), which is pre-trained on a large text corpus. We show that these representations can be easily added to existing models and significantly improve the state of the art across six challenging NLP problems, including question answering, textual entailment and sentiment analysis. We also present an analysis showing that exposing the deep internals of the pre-trained network is crucial, allowing downstream models to mix different types of semi-supervision signals.

要点

我们介绍了一种从biLMs学习高质量的深度上下文相关表示的通用方法,并在将ELMo应用于广泛的NLP任务时显示了很大的改进。通过ablations和其他受控实验,我们也证实了biLM层可以有效地编码关于wordsin-context的不同类型的语法和语义信息,并且使用所有层可以提高整体任务性能。

表1:在6个基准NLP任务中,ELMo增强神经模型与最先进的单模型基线的测试集比较。SNLI和SST-5的性能指标随任务精度的不同而不同;F1车队,SRL和NER;平均F1为Coref。由于NER和SST-5的测试规模较小,我们报告了五种不同随机种子的平均和标准偏差。“增加”列列出了相对于基线的绝对和相对改进。

表2: SQuAD,SNLI和SRL的开发集性能比较。顶层使用biLM的所有层(不同的选择正则化强度λ)。

表3:在监督模型中包含不同位置的ELMo时,team、SNLI和SRL的开发集性能。

表4:使用GloVe和来自biLM的上下文嵌入来“play”最近的邻居。

表5:全词细粒度WSD F1。对于CoVe和biLM,我们报告了第一层和第二层biLSTMs的评分。

表6:PTB的测试集POS标记准确性。为

CoVe和biLM,我们报告了第一层和第二层biLSTMs的评分。

图1:训练集大小从0.1%到100%时,SNLI和SRL的基线与ELMo性能的比较。

图2:softmax标准化biLM层权重跨任务和ELMo位置的可视化。小于1/3的归一化权重用水平线表示,大于2/3的权重用斑点表示。

深层上下文化的单词表示相关推荐

  1. Emscripten 单词_(第30期:英语教师备课资料) 英文标识记单词 有趣有用又高效...

    必须提醒 请你首先点击标题下方的蓝色字:高中英语教学资源,进入公众号,然后点击自己所需要的菜单,就可以看到你想要的菜了. 有效学习单词的要素: 在语篇语境中,有语义能语用 英文标识是语篇,有语境和语义 ...

  2. 【英语单词词汇笔记本】把英语常用常考的单词分100个类别:主要针对阅读、翻译、作文、词汇量

    文章目录: 补充 第一大类:英语人类单词 1.英语人体相关单词 扩展补充-与身体相关:https://wenku.baidu.com/view/524acaed84254b35eefd3485.htm ...

  3. 【渝粤题库】广东开放大学 企业文化 形成性考核

    选择题 题目: "不仅努力做好自己的本职工作,还关心整个民族.国家.乃至整个世界的发展前途:不仅考虑目前的处境,还注重长远的发展",具有这种行为特征的人是:( ) . 答案: A. ...

  4. 提灯照暗,向内自省——《中国文化的深层结构》读书笔记3800字

    提灯照暗,向内自省--<中国文化的深层结构>读书笔记3800字: 作者:王健茜:断断续续一个多月才读完了<中国文化的深层结构>,这并不是一本难懂的书,之所以读得慢,源于对书中观 ...

  5. 论文阅读:(2020版)A Survey on Deep Learning for Named Entity Recognition 命名实体识别中的深度学习方法

    A Survey on Deep Learning for Named Entity Recognition 命名实体识别中的深度学习方法 目录 A Survey on Deep Learning f ...

  6. 自然语言处理(NLP)简介

    目录 一.什么是自然语言处理 二.自然语言处理的主要困难 2.1 单词界定问题 2.2 短语级别歧义问题 2.3 上下文知识的获取问题 2.4 背景知识问题 三.自然语言处理的发展趋势 四.与计算机视 ...

  7. NLP自然语言处理简介

    作者:刘知远.清华大学计算机系副教授.博士生导师.主要研究方向为表示学习.知识图谱和社会计算.2011年获得清华大学博士学位,已在ACL.IJCAI.AAAI等人工智能领域的著名国际期刊和会议发表相关 ...

  8. 刘知远:NLP研究入门之道(一)

    点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要21分钟 跟随小博主,每天进步一丢丢 作者 刘知远 编辑 zenRRan 地址 https://github.com/zibuyu/resear ...

  9. 论文阅读:A Survey on Deep Learning for Named Entity Recognition

    这是一篇2020年发的命名实体识别的综述性论文,从NER的语料库,定义,评估指标,到深度学习中的NER的技术都有涉及到. A Survey on Deep Learning for Named Ent ...

最新文章

  1. 网站地图对优化的优势有哪些?
  2. DataTable的Merge\COPY\AcceptChange使用说明
  3. 【POJ - 2762】Going from u to v or from v to u?(Tarjan缩点,树形dp 或 拓扑排序,欧拉图相关)
  4. java 视频 缩略图_java获取视频缩略图
  5. Linux运维学习笔记
  6. mysql 5.1 开启慢查询_mysql开启慢查询
  7. 【转载】偏最小二乘法回归(Partial Least Squares Regression)
  8. Word 2010—样式集
  9. 《王道计算机网络》学习笔记总目录+思维导图
  10. winamp 珍藏_Winamp发生了什么,您现在可以使用吗?
  11. 谁是元宇宙的基础设施?数据中心助推元宇宙发展
  12. 软件工程第2次作业 | 结对项目-最长单词链
  13. 中国AI觉醒 阿里王坚:云智能将成为大趋势
  14. 传记-《硅谷钢铁侠》书中的精髓:从埃隆·马斯克的精神世界和人格特质里,找寻成功的秘密。
  15. Spring MVC 项目中配置log4j 出现错误log4j:ERROR Failed to excute sql com.mysql.jdbc.exceptions.jdbc4.MySQLSynt
  16. net-java-php-python-校园二手图书销售网站计算机毕业设计程序
  17. MATLAB中的利用polyfit()函数与polyval()函数拟合
  18. 【开源日记】宿舍断电自动关灯设备(二)
  19. linux 禁用IPv 6
  20. 100V输出12V/10A,5V/3.1ADC-DC异步降压芯片

热门文章

  1. 比如“古今数学思想”,BBC的“数学的故事”视频,一起看效果会更好
  2. 切换JAVAC的方法
  3. 《预训练周刊》第29期:Swin Transformer V2:扩大容量和分辨率、SimMIM:用于遮蔽图像建模的简单框架...
  4. 大赛季(2020)新一代信息技术行业赛赛事公告
  5. 译者招募 | 《Java编程思想》作者Bruce Eckel新作On Java 8
  6. 图灵九月书讯 ——金秋时节推荐给程序员们的书
  7. 图灵2011.01书讯
  8. 深度学习的“瓶颈”与“遛狗”定理
  9. 独家 | 机器学习中的四种分类任务(附代码)
  10. 独家 | 11个Python Pandas小技巧让你的工作更高效(附代码实例)