《Few-Shot Representation Learning for Out-Of-Vocabulary Words》

这篇文章是发表在2019年NAACL上的,主要是针对out of vocabulary问题提出的想法。

这里感觉和bert,elmo的想法类似,提炼的都是词向量,只不过这篇文章是将提炼词向量去解决out of Vocabulary这一个小问题上,切入点比较好;而且这篇文章自己提出了一个模型去进行词向量的学习。而之前的语言模型是,从大规模语料当中学习到语言学的一些通用知识,从而去进行下游任务。

这篇文章提炼词向量的方法是通过层级context encoder+Model Agnostic Meta-Learning (MAML)学习算法。在Rare-NER和词性标注的下游任务中取得了显著的改善。

分以下四部分介绍:

  • Motivation
  • Model
  • Experiment
  • Discussion

1、Motivation

在真实世界当中,out of vocabulary, 不会频繁的出现在训练语料里,对这部分的表示进行学习是一个challenge。论文提出了一种层级注意力结构对有限的observations进行词向量表示。
用一个词的上下文信息去进行编码,并且只使用K个observations去训练模型(目的就是希望模型能够准确对出现频率较少的词进行表示)。

为了使模型对新的语料有着更好的鲁棒性,提出了一种新的训练方法ModelAgnostic Meta-Learning (MAML)

2、Model

2.1 The Few-Shot Regression Framework

Problem formulation

首先在训练集上,我们使用训练方法产生词向量。这些词向量作为我们训练的一个目标标签,Oracle embedding。训练方法(MAML)如下:首先从大规模语料当中选出n个词,对于每一个词,我们可以用St表式所有包含这个词的句子。为了训练我们的模型,解决out of vocabulary的问题,我们随机的采样所有词的k(2, 4, 6)个句子,形成一个episode,该episode为一个小样本。在这个语料当中去训练我们的模型,然后用新的测试语料Dn微调。如此反复进行训练。同时加入字符特征。最后我们选择余弦距离作为我们的评价指标,目标是想让模型生成的词向量和oracle embedding 尽可能的接近。

2.2 Hierarchical Context Encoding (HiCE)

模型结构如下:

该模型也是训练一个语言模型,
输入:包含wtw_twtkkk 个句子st,ks_{t, k}st,k ,其中wtw_twt 被mask
输出wtw_twt 的词向量表示

模型结构主要分为两部分,第1部分是context encoder,第2部分是,Multi context Aggregator。

第1部分主要是对输入去进行一个transformer encoder的编码,得到每一个句子的表示,第2部分将这每一个句子的表示进行连接,再经过一个transformer encoder,并和字符特征去进行concatenation最后输出层得到词向量。模型结构比较简单,通过此模型结构能够去补获上下文的信息以及整体的全局信息。

都是标准的transformer,模型参数和计算过程就不赘述了。

3、Experiment

Present two types of experiments to evaluate the effectiveness of the proposed HiCE model.

  • intrinsic evaluation–WikiText-103 (Merity et al., 2017)[1] WikiText-103 which used as Dt contains 103 million words extracted from a selected set of articles
  • extrinsic evaluation

3.1 Intrinsic Evaluation: Evaluate OOV Embeddings on the Chimera Benchmark

Evaluate HiCE on Chimera (Lazaridou et al., 2017)[2], a widely used benchmark dataset for evaluating word embedding for OOV words,对于每一个OOV的单词,只有几个句子会出现,用Spearman correlation去评估结果的好坏。结果如下:

1、We can see that adapting with MAML can improve
the performance when the number of context sentences is relatively large (i.e., 4 and 6 shot), as it can mitigate the semantic gap between source corpus DTD_TDT and target corpus DN

3.2 Extrinsic Evaluation: Evaluate OOV Embeddings on Downstream Tasks

Named Entity Recognition

  • Rare-NER: focus on unusual, previouslyunseen entities in the context of emerging discussions
  • Bio-NER: focuses on technical terms in the biology domain


2、 The experiment demonstrates that HiCE trained on DT is already able to leverage the general language knowledge which can be transferred through different domains, and adaptation with MAML can further reduce the domain gap and enhance the performance

模型结构还是挺强的,上面说道HICE已经可以学习到跨领域的通用知识,并且通过MAML能够更好地减少领域鸿沟

4、Discussion

1、首先文章的切入点比较好,针对NLP领域的一个小问题,即OOV问题提出自己的解决方法。

2、从大规模语料库中提取词向量,并且使用一种新的结构作为语言模型提炼语言学中的一些通用知识。

3、为了减少领域之间的gap问题,使用MAML的学习方法,加强模型的鲁棒性。

4、实验中应该加入HICE+MAML的对比试验,因为MAML的微调既会对Morph产生影响,又会对结构产生影响。

5、如果直接用bert在这几个任务上实验,效果如何。

Reference

[1]Stephen Merity, Caiming Xiong, James Bradbury, and Richard Socher. 2017. Pointer sentinel mixture models. In ICLR’17
[2]Angeliki Lazaridou, Marco Marelli, and Marco Baroni.2017. Multimodal word meaning induction from minimal exposure to natural text. Cognitive Science.

Few-Shot Representation Learning for Out-Of-Vocabulary Words 论文笔记相关推荐

  1. Representation Learning for Attributed Multiplex Heterogeneous Network GATNE笔记

    KDD,2019 这篇文章给人感觉比较全面.general,针对的网络叫Attributed Multiplex HEterogeneous Network (or AMHEN),即考虑节点属性.考虑 ...

  2. XDL: An Industrial Deep Learning Framework for High-dimensional Sparse Data 论文笔记

    本文的github地址: https://github.com/alibaba/x-deeplearning X-Deep Learning(简称XDL)于2018年12月由阿里巴巴开源,是面向高维稀 ...

  3. Occupancy Networks: Learning 3D Reconstruction in Function Space论文笔记

    Contribution Occupancy networks implicitly represent the 3D surface as the continuous decision bound ...

  4. VirTex: Learning Visual Representations from Textual Annotations 论文笔记

    CVPR 2021 University of Michigan 论文及代码: https://arxiv.org/pdf/2006.06666v2.pdf https://github.com/kd ...

  5. DySAT: Deep Neural Representation Learning on Dynamic Graph via Self-Attention Networks

    文章目录 1 前言 2 问题定义 2.1 dynamic graph 3 DySAT思路 3.1 Structural Self-Attention 3.2 Temporal Self-Attenti ...

  6. Unsupervised Representation Learning from Pre-trained Diffusion Probabilistic Models

    Unsupervised Representation Learning from Pre-trained Diffusion Probabilistic Models 论文链接: https://a ...

  7. 《Neural Machine Translation by Jointly Learning to Align and Translate》阅读笔记

    个人总结 本文最大贡献是提出了注意力机制,相比于之前 NMT(Neural Machine Translation) 把整个句子压缩成一个固定向量表示的方法,对不同位置的目标单词计算每个输入的不同权重 ...

  8. 【论文笔记】Towards Universal Sequence Representation Learning for Recommender Systems

    论文详细信息 题目:Towards Universal Sequence Representation Learning for Recommender Systems 作者:Yupeng Hou a ...

  9. 阅读《SentiLARE: Sentiment-Aware Language Representation Learning with Linguistic Knowledge》

    SentiLARE: Sentiment-Aware Language Representation Learning with Linguistic Knowledge Abstract 现有的预训 ...

最新文章

  1. 深度学习的发展可能已达极限!
  2. 【转】CreateWindowEx异常原因汇总
  3. url-pattern写成/和/*的区别
  4. 跟开发对接,要了解哪些数据库知识?
  5. 关于python直接用列表名复制的一些问题 以及 python 子串查找
  6. mysql的中文乱码url,MySQL 中文显示乱码
  7. atitit.提升性能AppCache
  8. msfvenom 生成php木马,利用msfvenom生成木马程序
  9. 组态王JAVA,组态王肿么实现点击按钮以后可以实现画面的运行
  10. 原函数的导数与反函数的导数互为倒数
  11. Vue3源码阅读(八)effect
  12. 2020年11月软考网络规划设计师上午真题及答案解析
  13. 什么东西能帮助睡眠?曾经五年睡不好觉的朋友在用几个东西
  14. 软件架构 - 架构风格总结
  15. Matlab函数参考
  16. NOIP2008 ISBN号码(一桶水)【A005】
  17. idea 编译时,报“编码GBK的不可映射字符”
  18. 夫妻财产公证有法律效力吗
  19. Windows下Bonobo.Git.Server服务器的搭建
  20. 区块链集体癫狂的背后是互联网行业缺乏创新的焦虑

热门文章

  1. ajaxfileupload ajax 异步文件上传 进度条,jQuery ajaxFileUpload.js 文件异步ajax上传(示例代码)...
  2. 互联网摸鱼日报(2022-12-06)
  3. 中国水牛品种、存栏量及水牛奶产量、企业格局分析[图]
  4. 【语义分割系列:七】Attention Unet 论文阅读翻译笔记 医学图像 python实现
  5. Win10开机弹出msn中文网该怎么取消?取消开机弹出msn导航的方法
  6. spark任务调度——梳理龙骨
  7. TruthTable真值表---python
  8. Vector - CAPL - 字符串函数杂项
  9. FineReport学习-【01 帆软报表入门】
  10. Python用OpenCv捕捉你的头像