文章目录

  • 1 介绍
  • 2 span-relation representations
    • 2.1未涉及句子级任务
  • 3.span-relation model
    • 3.1 span representation
    • 3.2 span and relation label prediction
    • 3.3 应用到不同任务
    • 3.5 多任务学习MTL
  • 4 GLAD Benchmark基准 and Results
    • 4.1 实验
    • 4.2 证明通用模型有效
    • 4.3 MTL
      • 4.3.2 任务之间的关系分析
      • 4.3.3 相似和区别
      • 4.3.4 MTL under different settings
      • 4.4.4 模型复杂度

1 介绍

  • nlp任务

    • span标记
    • span之间的关系标记
  • 希望用统一的框架处理nlp任务

  • 假设:人类可以用相同的格式标注数据,机器也可以

    • 人类标注:已经有统一的标准BRAT
  • 贡献

    • span标记和span之间的关系标记联合模型

      • 已经有端到端的共指消解模型(Lee et al. (2017))–本文对它进行少量修改
    • 预训练一个上下文的模型(Bert,Elmo)
    • 验证单一模型的适用性和通用性
      • 在10个任务上

        • named entity recognition(NER),
        • relation extraction (RE),
        • coreference resolution (Coref.),
        • open information extraction (OpenIE),
        • part-of-speech tagging (POS),
        • dependency parsing (Dep.),
        • constituency parsing (Consti.),
        • semantic role labeling (SRL),
        • aspect based sentiment analysis (ABSA),
        • and opinion role labeling (ORL)
      • 功能:
        • 一个模型可以处理多个任务
        • MTL:很方便,可以帮助数据量少的相关模型(相互协助)
          • 有的任务会互相帮助
          • 也有的任务会相互阻碍:因为不同的任务表现出不同的注意模式(attention)
  • 预训练模型

    • 使用相同的表示,通过预训练的embedding
  • 本文

    • 完全统一的模型,去处理所有任务

2 span-relation representations

  • 解释BRAT如何标注大量任务

    • span标注–span-oriented tasks
    • relation标注 --relation-oriented tasks

2.1未涉及句子级任务

  • 注意

    • 未涉及句子级别的任务(情感分类。。)

      • 可以将整个句子当作一个span
      • 但因为之前的通用模型中已经有很好的表现了,就不做了
        • 通用模型(Lan and Xu, 2018)、
        • 多任务学习 (Devlin et al.,2019; Liu et al., 2019)

3.span-relation model

  • base(Lee et al., 2017)–一个端到端的共指消解模型,span标注

    • 扩展到其他任务
    • 模型核心:用一个任意长度的向量表示span–用以预测label或span-pair的label

3.1 span representation

  • 条件:可以任意长度
  • 内容表示zicz_i^czic
  • 边界表示ziuz_i^uziu
  • 句子的tokenw1,w2,...,wnw_1,w_2,...,w_nw1,w2,...,wn
  • span:si=[(bbi,bbi+1,...,bei]s_i=[(b_{b_i},b_{b_i+1},...,b_{e_i}]si=[(bbi,bbi+1,...bei]
  • c1,c2,...,cn=TokenRepr(w1,w2,...,wn)u1,u2,...,un=BiLSTM(c1,c2,...,cn)zic=SelfAttn(cbi,cbi+1,...,cei)ziu=[ubi;uei]zi=[zic;ziu]c_1,c_2,...,c_n=TokenRepr(w_1,w_2,...,w_n)\\ u_1,u_2,...,u_n=BiLSTM(c_1,c_2,...,c_n)\\ z_i^c=SelfAttn(c_{b_i},c_{b_i+1},...,c_{e_i})\\ z_i^u=[u_{b_i};u_{e_i}]\\ z_i=[z_i^c;z_i^u]c1,c2,...,cn=TokenRepr(w1,w2,...,wn)u1,u2,...,un=BiLSTM(c1,c2,...,cn)zic=SelfAttn(cbi,cbi+1,...cei)ziu=[ubi;uei]zi=[zic;ziu]
    • tokenRepr:Glove or Bert

3.2 span and relation label prediction

  • invalid label

    • NEG_SPAN
    • NEG_REL
  • Model
    1. 预测所有的span(长度<l):MLP(多层感知机)softmax(MLPspan(zi))∈Δ∣L∣softmax(MLP^{span}(z_i))\in\Delta^{|L|}softmax(MLPspan(zi))ΔL
    2. 剪枝:保留前K=n⋅τK=n\cdot \tauK=nτ个span,剩下的为NEG_SPAN(阈值τ\tauτ低,则剪枝更多)
    3. 预测关系的感知机MLP:ojk=MLPrel([zj;zk;zj⋅zk])∈R∣R∣o_{jk}=MLP^{rel}([z_j;z_k;z_j\cdot z_k])\in \mathbb{R}^{|R|}ojk=MLPrel([zj;zk;zjzk])RR

3.3 应用到不同任务

  • 最大化真实关系的概率

  • 具体到不同任务上需求不同

    • 关心前后顺序:关系抽取
    • 不关心顺序:
      • eg:共指消解:

        • 连接相同概念的span–cluster
        • 多个也只要连上了就好
  • 为此,提供两种loss–最大化

    • pairwise loss:softmax(ojk)rjk,rjk是实际答案的indexessoftmax(o_{jk})_{r_{jk}},r_{jk}是实际答案的indexessoftmax(ojk)rjk,rjkindexes–其他所有任务

      • 预测一对
    • head loss:Σk∈head(sj)softmax([oj1,oj1,...,ojK)k\Sigma_{k\in head(s_j)} softmax([o_{j1},o_{j1},...,o_{jK})_kΣkhead(sj)softmax([oj1oj1,...,ojK)k–用于共指消解
      • 预测一堆
      • (?多元关系?怎么样)
  • 这两个loss,仅在如何normalize时有区别,其他并无区别

  • test

    • 共指消解:把span连接到得分最高的前件上e (Lee et al., 2017)
    • consti:constituency parsing:贪婪的从上到下的解码,去产生有效的解析树
    • dep:依赖解析:每个词链接到一个父节点(最高关系得分的)
    • other:对每对实体预测关系,没关系的预测为NEG_REL
  • 核心观点

    • 我们的模型任务无关

      • 只要能建模为span标注任务和span关系预测任务即可

3.5 多任务学习MTL

  • SpanRel实现MTL

    • 共享参数,除了MLPs的
    • 问题:
      • 不同的任务,关注点不同(在语言方面)
      • 所以对于所有任务不是获得相同的增益的、
        • 在相关任务上联合训练是增益的
        • 而不相关的任务是hurt
      • 如何选择任务?
        • 任务数目多时,手动选择难
    • 解决:
      • SpanRel提供了一个系统的方式/基于attetion的方式–选择任务对(互相有增益的)–4.3

4 GLAD Benchmark基准 and Results

  • 提出GLAD基准和evaluation metrics
  • 证明SpanRel
    • 有效
    • 对MTL有益

4.1 实验

  • metrics

    • F1,P,R–for span and relation
  • token representation:Glove,ELMo,Span-Bert,Bert
  • BiLSTM 256 hidden\
  • MLP:2 layers,128hidden

4.2 证明通用模型有效

  • 在相同条件下与SOTA模型相比较

    • token representation(Bert or Glove…)相同
    • settings
  • 通用模型有效
    • 和sota差不多

4.3 MTL

  • MTL和STL(单任务学习),FT(finetune)

    • 有Bert好于没有Bert
    • 有Finetune好于无FT
    • 下降的比较多:
      • 大多数任务数据稀疏
      • 不同的任务关注点不同,相互之间可能有助益也有阻碍

4.3.2 任务之间的关系分析

  • 假设:语言模型预训练在理论上与MTL正交,实际上benefit是重叠的
  • 分析
    • (1)对于OpenIE和ORL来说,使用SRL进行多任务学习可以显著提高性能,而其他任务的提高则很少或根本没有。
    • (2)依赖解析和SRL是对大多数目标任务有益的通用源任务。
    • SpanREL可以很容易地进行MTL,并且看出谁是有益的源任务

4.3.3 相似和区别

  • 证明SpanRel提供分析不同任务相似性和区别的平台

    • 猜测,与attention有关

      • attention反应内部焦点
      • 公式:simk(t,t′)=−1∣Xt∣Σx∈Xt∣∣Akt(x)−Akt′(x)∣∣F′Akt(x)是第k个头的attentionmapsim_k(t,t')=-\frac{1}{|X_t|}\Sigma_{x\in X_t}||A_k^t(x)-A_k^{t'}(x)||_{F'}\\A_k^t(x)是第k个头的attention mapsimk(t,t)=Xt1ΣxXtAkt(x)Akt(x)FAkt(x)kattentionmap
      • 下图证明这个公式确实反映了相似度

4.3.4 MTL under different settings

  • token representation 越强大,improvement越少

    • MTL和预训练模型都倾向于学习通用表达,benefit重叠了
    • 5中glove训练了所有模型,所以效果差了–超出能力范围
  • 数据稀疏的时候模型有用

4.4.4 模型复杂度

  • 主要在bert
  • span O(l⋅n)O(l\cdot n)O(ln)
  • relation O(K2)=O(τ2⋅n2)O(K^2)=O(\tau^2\cdot n^2)O(K2)=O(τ2n2)

[ACL2020]Generalizing Natural Language Analysis through Span-relation Representations相关推荐

  1. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Process

    摘要 这篇文章是对最近比较火的"prompt"的一个总结,一篇非常好的综述,做NLP方向建议都要读一读:) 本文将这种方法称之为"prompt-based learnin ...

  2. Deep Learning in Natural Language Processing中文连载(一)

    前言: 感谢邓力.刘洋博士能够提供给广大NLP从业者.爱好者提供了这本全面.通俗易懂的好书,以及其他专家前辈在具体章节.领域做出的贡献. 本书共338页,涵盖了NLP基本问题的介绍,以及深度学习在对话 ...

  3. CLIP论文翻译、Learning Transferable Visual Models From Natural Language Supervision翻译

    CLIP论文翻译.Learning Transferable Visual Models From Natural Language Supervision翻译 文章目录 CLIP论文翻译.Learn ...

  4. NATURAL LANGUAGE INFERENCE OVER INTERACTION SPACE

    文章目录 ABSTRACT 1 INTRODUCTION 2 RELATED WORK 3 MODEL 3.1 INTERACTIVE INFERENCE NETWORK 3.2 DENSELY IN ...

  5. 论文阅读:Natural Language Processing Advancements By Deep Learning: A Survey

    文章目录 一.介绍 二.背景 1.人工智能和深度学习 (1)多层感知机 (2)卷积神经网络 (3)循环神经网络 (4)自编码器 (5)生成对抗网络 2.NLP中深度学习的动机 三.NLP领域的核心概念 ...

  6. CLIP论文笔记--《Learning Transferable Visual Models From Natural Language Supervision》

    CLIP论文笔记--<Learning Transferable Visual Models From Natural Language Supervision> 1.Introducti ...

  7. 自然语言处理NLP 2022年最新综述:An introduction to Deep Learning in Natural Language Processing

    论文题目:An introduction to Deep Learning in Natural Language Processing: Models, techniques, and tools ...

  8. 【Gaze】A Survey on Using Gaze Behaviour for Natural Language Processing

    A Survey on Using Gaze Behaviour for Natural Language Processing 1. Abstract 摘要中主要介绍本文的工作,整篇主要讨论了在NL ...

  9. CLIP: Learning Transferable Visual Models From Natural Language Supervision

    目录 Introduction Approach CLIP Prompt Engineering and Ensembling Experiments Analysis of Zero-shot CL ...

最新文章

  1. 温故而知新,ggplot2 饼图的几点笔记
  2. BZOJ 1874: [BeiJing2009 WinterCamp]取石子游戏(SG函数)
  3. 第七周项目一-成员函数、友元函数和一般函数有区别(1)
  4. querySelector
  5. python 中文识别 不用tesseract_Python——验证码识别 Pillow + tesseract-ocr
  6. OLEDB IMEX行数限制的问题
  7. UDT协议实现分析——连接的建立
  8. 找出一个字符串中出现次数最多的字_487,重构字符串
  9. php获取网页输出,PHP 利用AJAX获取网页并输出的实现代码(Zjmainstay)_PHP教程
  10. BestCoder15 1002.Instruction(hdu 5083) 解题报告
  11. ubuntu16.04--cuda
  12. 描述最常用的5种http方法的用途_RESTful API系列之HTTP基础
  13. MySQL 忘记Root密码
  14. 【UOJ78】二分图最大匹配
  15. Php sql server2005,phpmssqlserver2005数据库连接类
  16. SpringBoot 集成ElasticSearch(二)分页查询
  17. 阿里前端电话面试问题
  18. 软件调试高级研习班庐山秀峰站(2017-06)
  19. windows bat系列9:for处理案例三 单行按指定分隔符分割
  20. 计算机网络的对学生的利弊英语作文,网络的利与弊英语作文范文

热门文章

  1. 周五跟大佬喝酒,顺便打了个球
  2. 为什么需要超过48k的采样音频?
  3. esp32 coredump分析
  4. Linux C高级编程——网络编程基础(1)
  5. ViceDinoSpecCtrl.cpp
  6. mft按钮设计_哈汽机组660MW超临界空冷机组ETS设计及逻辑说明
  7. 逻辑斯谛回归模型( Logistic Regression,LR) 最大熵模型(Max Entropy,ME)
  8. LeetCode 1019. 链表中的下一个更大节点(单调栈)
  9. python是动态_1.2. Python是动态语言
  10. 【机器学习】sklearn k-近邻算法