摘要:本文是对ACL2021 NER 基于模板的BART命名实体识别这一论文工作进行初步解读。

本文分享自华为云社区《ACL2021 NER | 基于模板的BART命名实体识别》,作者: JuTzungKuei 。

论文:Cui Leyang, Wu Yu, Liu Jian, Yang Sen, Zhang Yue. TemplateBased Named Entity Recognition Using BART [A]. Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021 [C]. Online: Association for Computational Linguistics, 2021, 1835–1845.

链接:https://aclanthology.org/2021.findings-acl.161.pdf

代码:GitHub - Nealcly/templateNER: Source code for template-based NER

0、摘要

  • 小样本NER:源领域数据多,目标领域数据少
  • 现有方法:基于相似性的度量
    • 缺点:不能利用模型参数中的知识进行迁移
  • 提出基于模板的方法
    • NER看作一种语言模型排序问题,seq2seq框架
    • 原始句子和模板分别作为源序列和模板序列,由候选实体span填充
    • 推理:根据相应的模板分数对每个候选span分类
  • 数据集
    • CoNLL03 富资源
    • MIT Movie、MIT Restaurant、ATIS 低资源

1、介绍

  • NER:NLP基础任务,识别提及span,并分类
  • 神经NER模型:需要大量标注数据,新闻领域很多,但其他领域很少
    • 理想情况:富资源 知识迁移到 低资源
    • 实际情况:不同领域实体类别不同
    • 训练和测试:softmax层和crf层需要一致的标签
    • 新领域:输出层必须再调整和训练
  • 最近,小样本NER采用距离度量:训练相似性度量函数
    • 优:降低了领域适配
    • 缺:(1)启发式最近邻搜索,查找最佳超参,未更新网络参数,不能改善跨域实例的神经表示;(2)依赖源域和目标域相似的文本模式
  • 提出基于模板的方法
    • 利用生成PLM的小样本学习潜力,进行序列标注
    • BART由标注实体填充的预定义模板微调
    • 实体模板:<candidate_span> is a <entity_type> entity
    • 非实体模板:<candidate_span> is not a named entity
  • 方法优点:
    • 可有效利用标注实例在新领域微调
    • 比基于距离的方法更鲁棒,即使源域和目标域在写作风格上有很大的差距
    • 可应用任意类别的NER,不改变输出层,可持续学习
  • 第一个使用生成PLM解决小样本序列标注问题
  • Prompt Learning(提示学习)

2、方法

2.1、创建模板

  • 将NER任务看作是seq2seq框架下的LM排序问题
  • 标签集 entity_type:\mathbf{L}=\{l_1,...,l_{|L|}\}L={l1​,...,lL∣​},即{LOC, PER, ORG, …}
  • 自然词:\mathbf{Y}=\{y_1,...,y_{|L|}\}Y={y1​,...,yL∣​},即{location, person, orgazation, …}
  • 实体模板:\mathbf{T}^{+}_{y_k}=\text{<candidate\_span> is a location entity.}Tyk​+​=<candidate_span> is a location entity.
  • 非实体模板:\mathbf{T}^{-}=\text{<candidate\_span> is not a named entity.}T−=<candidate_span> is not a named entity.
  • 模板集合:\mathbf{T}=[\mathbf{T}^{+}_{y_1},...,\mathbf{T}^{+}_{y_{|L|}},\mathbf{T}^{-}]T=[Ty1​+​,...,TyL∣​+​,T−]

2.2、推理

  • 枚举所有的span,限制n-grams的数量1~8,每个句子有8n个模板
  • 模板打分:\mathbf{T}_{{y_k},x_{i:j}}=\{t_1,...,t_m\}Tyk​,xi:j​​={t1​,...,tm​}

  • x_{i:j}xi:j​实体得分最高
  • 如果存在嵌套实体,选择得分较高的一个

2.3、训练

  • 金标实体用于创建模板

    • 实体x_{i:j}xi:j​的类型为y_kyk​,其模板为:\mathbf{T}^{+}_{y_k,x_{i:j}}Tyk​,xi:j​+​
    • 非实体x_{i:j}xi:j​,其模板为:\mathbf{T}^{-}_{x_{i:j}}Txi:j​−​
  • 构建训练集:
    • 正例:(\mathbf{X}, \mathbf{T}^+)(X,T+)
    • 负例:(\mathbf{X}, \mathbf{T}^-)(X,T−),随机采样,数量是正例的1.5倍
  • 编码:\mathbf{h}^{enc}=\text{ENCODER}(x_{1:n})henc=ENCODER(x1:n​)
  • 解码:\mathbf{h}_c^{dec}=\text{DECODER}(h^{enc}, t_{1:c-1})hcdec​=DECODER(henc,t1:c−1​)
  • 词t_ctc​的条件概率:p(t_c|t_{1:c-1},\mathbf{X})=\text{SOFTMAX}(\mathbf{h}_c^{dec}\mathbf{W}_{lm}+\mathbf{b}_{lm})p(tc​∣t1:c−1​,X)=SOFTMAX(hcdecWlm​+blm​)
    • \mathbf{W}_{lm} \in \mathbb{R}^{d_h\times |V|}Wlm​∈Rdh​×∣V
  • 交叉熵loss

3、结果

  • 不同模板类型的测试结果

    • 选择前三个模板,分别训练三个模型

  • 实验结果

    • 最后一行是三模型融合,实体级投票

号外号外:想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营供大家免费学习。

点击关注,第一时间了解华为云新鲜技术~

论文解读:ACL2021 NER | 基于模板的BART命名实体识别相关推荐

  1. 跟我读论文丨ACL2021 NER 模块化交互网络用于命名实体识别

    摘要:本文是对ACL2021 NER 模块化交互网络用于命名实体识别这一论文工作进行初步解读. 本文分享自华为云社区<ACL2021 NER | 模块化交互网络用于命名实体识别>,作者: ...

  2. 基于深度学习的命名实体识别研究综述——论文研读

    基于深度学习的命名实体识别研究综述 摘要: 0引言 1基于深度学习的命名实体识别方法 1.1基于卷积神经网络的命名实体识别方法 1.2基于循环神经网络的命名实体识别方法 1.3基于Transforme ...

  3. 【项目调研+论文阅读】基于BERT的中文命名实体识别方法[J] | day6

    <基于BERT的中文命名实体识别方法>王子牛 2019-<计算机科学> 文章目录 一.相关工作 二.具体步骤 1.Bi-LSTM 2.CRF结构 三.相关实验 1.数据集 2. ...

  4. 【项目实战课】基于BiLSTM+CRF的命名实体识别实战

    欢迎大家来到我们的项目实战课,本期内容是<基于BiLSTM+CRF的命名实体识别实战>.所谓项目课,就是以简单的原理回顾+详细的项目实战的模式,针对具体的某一个主题,进行代码级的实战讲解. ...

  5. 超详综述 | 基于深度学习的命名实体识别

    ©PaperWeekly 原创 · 作者|马敏博 单位|西南交通大学硕士生 研究方向|命名实体识别 论文名称:A Survey on Deep Learning for Named Entity Re ...

  6. A Transformer-based System for English Named Entity Recognition 基于Transformer的英语命名实体识别系统

    (1)  目的和背景 ① 研究任务: 复杂的复合命名实体可能是复杂的名词短语.动名词.不定式.甚至是完整的句子.这种歧义使很难根据他们的上下文认识它们.为了解决复杂命名实体识别,提出了一个基于 Tra ...

  7. 【项目调研+论文阅读】Lattice LSTM神经网络医学文本命名实体识别 | day7

    <Lattice LSTM神经网络法中文医学文本命名实体识别模型研究>2019 文章目录 一.模型步骤 1.Lattiice-LSTM分词+表征词汇 2.LSTM-CRF  经证实,英文N ...

  8. 基于spaCy的领域命名实体识别

    基于spaCy的命名实体识别 ----以"大屠杀"领域命名实体识别研究为例 作者: Dr. W.J.B. Mattingly Postdoctoral Fellow at the ...

  9. 基于条件随机场的命名实体识别

    我们知道HMM将分词作为字标注问题来解决,其中有两条独立性假设:一个是输出观察值之间严格独立,二是状态的转移过程中当前状态只与前一个状态有关(一阶马尔可夫型).通过这两种假设,使得HMM的计算成为可能 ...

最新文章

  1. js如何清空数组最快?
  2. oracle和MySQL的日期函数_mysql与oracle的日期/时间函数小结
  3. 你是一个合格的数据分析师吗?教你如何提升自己的product sense?
  4. HDU 1253-大逃亡(裸-DBFS)
  5. MyISAM 和 InnoDB 讲解
  6. hyperstudy联合matlab,HyperStudy对后处理排气管道参数的灵敏度分析及优化设计
  7. php eot eod_EOD的完整形式是什么?
  8. python 命令行解析模块_Python解析命令行读取参数 -- argparse模块
  9. android自定义键盘遮挡,Android软键盘遮挡的四种完美解决方案
  10. AD下安装Exchange及简单收发邮件【视频】
  11. 返回List的分页方法
  12. sql获取服务器系统时间,sql server 获取系统时间的方法
  13. react router 路由守卫_react实现路由守卫
  14. win7怎样在线升级到win10 win7直接升级win10详细教程
  15. delphi android 升级,delphi android 自动升级
  16. web前端程序员到底值多少钱?
  17. 黑苹果win10双系统下文件名变灰色解决办法
  18. 评四女作家的×龙戏凤 (原版)
  19. 川土微电子CA-IS1300用于电流检测的隔离运放新品上市
  20. keil5安装及注册许可

热门文章

  1. openstack用户列表_什么是OpenStack超级用户?
  2. (8)css常用样式属性3
  3. async 与 await 的用法详解
  4. 视觉SLAM笔记(1) 初识SLAM
  5. matlab vs2010编译器xml,matlab(R2010a)找不到vs2010的c++编译器
  6. yamlcpp遍历_gf-cli 命令行工具
  7. Kotlin——初级篇(一):最详细的环境搭建
  8. 揭秘Product Hunt怎样运用邮件崛起
  9. MVC+EF 随笔小计——NuGet程序包管理
  10. 搭建Android开发环境 第二章