论文名称:Nested Named Entity Recognition from Medical Texts: An Adaptive Shared Network Architecture with Attentive CRF

介绍

嵌套命名实体任务的解决,提出了一个新的框架:Adaptive Shared Network Architecture with Attentive CRF(ASAC)

  • 采用自适应共享(AS)机制自适应地选择预训练模型每一层的输出来编码输入文本,从而获得不同实体类别的不同特征,通过这种机制,可以从预训练语言模型不同层里去学习上下文特征,用于下游任务
  • 在解码阶段利用注意力条件随机场,它使其他实体识别任务的维特比解码输出作为查询。通过注意力机制将查询作为残差输入到原始CRF进行偏差校正。通过整合其他CRF层的识别结果,提高嵌套命名实体的识别效果

相关工作

以往的基于深度学习的嵌套NER算法主要分为以下几类:

  • 将解码过程转换为多分类解码
  • 基于跨度的方法,将NER视为跨度上的分类任务,天生具有识别嵌套命名实体的能力
  • 使用其他建模方法代替序列标记、基于跨度。例如机器阅读理解、构建超图

自适应共享预训练模型(AS)

自适应共享机制将为BERT预训练模型的每个transformer层分配可学习的权重,并在反向传播期间更新权值α_ij

  • i:第i个实体类别
  • n:transformer层的个数
  • E_i:第i个实体类别的编码结果,其实就是注意条件随机场(ACRF)的各个CRF的输入。注:和下面的H_i对应,形状为:{batch_size,target_size,seq_len}由公式(7)得到,尽管我们通常是设为{batch_size,seq_len,target_size}这种格式

防止权重消失或爆炸,使用softmax函数对计算后的权值α_ij进行校正

注意条件随机场(ACRF)

对于长度为N的预测序列y={y_1,…,y_N},y_i∈N个类别中的一个,其得分score定义如下

  • T_ {y_ i,y_ {i+1}}:y_ i类别到y_ {i+1}类别的转移得分
  • H_ {i,y_ i}:H的序列位置为i时的第y_i个标签的得分

CRF模型在所有可能的标签序列上定义了一条件概率p(y|x)

在训练阶段,我们考虑争取预测的最大对数概率。在解码时搜索得分最高的标签序列

假设我们预先定义了m个实体类别,意味着我们有m个并行的CRF,对于每个CRF,其他并行CRF的推理结果被用作注意力机制的查询,这里集合C表示除当前CRF之外的所有CRF层的维特比解码结果,d_l表示每个输入文本的最大序列长度(原本的序列长度为N,小于则填充,大于则截断),第i层CRF注意力查询值为

不理解:维特比解码后,y的维度应该就是{d_l},代表一系列预测出来的标签序列,这里有两种思考的方式:1.W_f * y 的维度为d_t * 1,和后面b_f。这是把乘积进行广播并加给了b_f2.y自身复制d _l份,成为{d_l,d_l},W_f * y的维度就是dt * d_l


W f ∈ R d t × d l , b f ∈ R d t × d l , c 表 示 填 充 常 量 , 论 文 中 我 们 设 置 为 0 , d t 表 示 标 签 数 W_f\in R^{d_t × d_l},b_f \in R^{d_t × d_l},c表示填充常量,论文中我们设置为0,d_t表示标签数 Wf​∈Rdt​×dl​,bf​∈Rdt​×dl​,c表示填充常量,论文中我们设置为0,dt​表示标签数
然后利用注意力机制明确学习原始得分和并行结果的依赖关系,捕获句子的内部结构信息


K i ∈ R d t × d l , V i ∈ R d t × d l , 设 置 K i = V i = H i , H i 为 第 i 个 C R F 层 输 入 , 然 后 添 加 残 差 R i 和 原 始 H i 作 为 C R F 的 输 入 , 并 得 到 最 终 预 测 标 签 列 表 K_i \in R^{d_t × d_l},V_i \in R^{d_t × d_l},设置K_i = V_i = H_i,H_i为第i个CRF层输入,然后添加残差R_i和原始H_i作为CRF的输入,并得到最终预测标签列表 Ki​∈Rdt​×dl​,Vi​∈Rdt​×dl​,设置Ki​=Vi​=Hi​,Hi​为第i个CRF层输入,然后添加残差Ri​和原始Hi​作为CRF的输入,并得到最终预测标签列表

实验

数据

数据集:中文医疗信息处理评测基准CBLUE_数据集-阿里云天池 (aliyun.com)的CMeEE

任务目标:从中国医学文献中检测和提取命名实体,并将它们分为九个预定义类别之一。数据集提供者指出所有的嵌套命名实体是被允许存在于sym实体类别中,其他八种实体是被允许存在于实体中。故,我们将这九个实体类别分为两类:一类包含sym类别,另一类包含其他八种实体类别

预训练模型采用BERT-wwm-ext, Chinese, with 12-layer, 768- hidden, 12-heads and 110M parameters

结果和比较

消融

  1. 具有具有自适应共享、注意条件随机场
  2. 没有自适应共享,跳过方程(2)-(3),只使用基于BERT_based预训练模型的最终输出层进行编码
  3. 没有注意条件随机场,跳过方程(7)-(9),使用单独的CRF来预测不同类别标签,并组合结果
  4. 没有自适应共享和注意条件随机场,不同于BERT-CRF,有两个独立的CRF用于解码两类(sym类、其他八种)

自适应共享机制分析

不同的上下文特征存储在bert的不同层中。因此,合理地推断隐藏层的不同特征对于不同的实体类别有不同的影响。考虑如此,将实体类别分为两类,在自适应共享机制下,从预训练模型的不同layer中提取了class1的权值{α_ {1,0},…,α_ {1,11}},class2的权值{α_ {2,0},…,α_ {2,11}}

图中数据现实,class1更新BERT-base模型的上层输出,而中间层对class2的影响更大,因此自适应共享机制使模型能更好地学习嵌套实体类别匹配的上下文特征,有利于后续解码

注意条件随机场分析

在解码模块,计算初始CRF输出和在注意机制后增加残差的CRF输出的之间改变标签的情况。在3,000个测试用例总共155,658个tokens。两个类分别改变了4816、1392,其中正变化超过了60%

总结

本文提出了一种用于医学领域的中文嵌套命名实体识别模型

  • 通过引入自适应共享机制,将BERT-base的不同隐藏层的特征去获取不同嵌套实体
  • 构建注意条件随机场,利用编码特征通过注意力机制去预测解码相应的标签

资料:

来自医学文本的嵌套命名实体识别:自适应共享 具有周到的CRF|的网络架构深度人工智能 (deepai.org)

Nested Named Entity Recognition from Medical Texts: An Adaptive Shared Network Architecture with Att相关推荐

  1. [论文阅读笔记14]Nested named entity recognition revisited

    一, 题目 Nested Named Entity Recognition Revisited 重访问的嵌套命名实体识别 二, 作者 Arzoo Katiyar and Claire Cardie D ...

  2. 《A Boundary-aware Neural Model for Nested Named Entity Recognition》

    论文链接:A Boundary-aware Neural Model for Nested Named Entity Recognition 模型代码:Github Abstract   在自然语言处 ...

  3. 《Deep Exhaustive Model for Nested Named Entity Recognition》

    论文链接:Deep Exhaustive Model for Nested Named Entity Recognition Abstract   我们提出了一种简单的深层神经网络模型用于嵌套命名实体 ...

  4. 论文笔记 Bipartite Flat-Graph Network for Nested Named Entity Recognition | ACL2020

    论文作者: 论文链接:https://arxiv.org/pdf/2005.00436.pdf 代码实现:https://github.com/cslydia/BiFlaG Abstract 作者为嵌 ...

  5. 【ACL 2021】Locate and Label A Two-stage Identifier for Nested Named Entity Recognition

    一.Introduction 命名实体识别(NER)是自然语言处理中一项研究非常广泛的任务.传统的NER研究只处理平面实体,而忽略了嵌套实体.例如:北京大学,北京大学不仅是一个组织,同时北京也是一个地 ...

  6. 论文阅读笔记(三)【ACL 2021】Locate and Label: A Two-stage Identifier for Nested Named Entity

    论文标题: Locate and Label: A Two-stage Identifier for Nested Named Entity Recognition 论文链接: https://arx ...

  7. 【论文笔记-NER综述】A Survey on Deep Learning for Named Entity Recognition

    本笔记理出来综述中的点,并将大体的论文都列出,方便日后调研使用查找,详细可以看论文. 神经网络的解释: The forward pass com- putes a weighted sum of th ...

  8. PapeDeading:Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition

    Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition 文章目录 摘要 结论 ...

  9. python命名实体识别工具_Day14:使用斯坦福 NER 软件包实现你自己的命名实体识别器(Named Entity Recognition,NER)...

    编者注:我们发现了有趣的一系列文章<30天学习30种新技术>,正在翻译中,一天一篇更新,年终礼包.下面是第 14 天的内容. 我并不是一个机器学习(Machine Learning).自然 ...

最新文章

  1. 深度好玩!10个有趣且易上手的AI项目(附 Python 源代码)
  2. 【Linux_Fedora_应用系列】_3_如何利用Smplayer播放WMV格式的文件
  3. 爱情第七课,被爱的秘密
  4. CCF - 201509-2 - 日期计算
  5. Spring 2.5:Spring MVC中的新特性
  6. (轉貼) Jolt 2007得獎名單 (News) (.NET)
  7. python使用os.listdir和os.walk获得文件的路径
  8. linux 线程退出 signal,Linux signal 那些事儿 (3)
  9. log4j.properties配置
  10. MySQL—设置数据库(库、表等)不区分大小写
  11. 算法:求两个数最大公约数
  12. [LeetCode] 144. Binary Tree Preorder Traversal Java
  13. 【Java从0到架构师】Nginx 拓展 - HTTPS支持、缓存、Http请求防盗链、限流、高可用(Keepalived)
  14. python 自然语言处理(四)____词典资源
  15. toastr 自定义提示
  16. 跟张志东深聊,腾讯的“进化力”
  17. 宝藏级的开源小程序(APP)商城-CRMEB-WEB版实测
  18. html页面滚动条设置
  19. 真正的IT技术男是什么样的?
  20. 让Android屏幕不响应任何点击

热门文章

  1. 用winrar更新jar包中的lib资源
  2. java工资高还是php_为什么java比php工资高啊?
  3. 用python还原《三体》中的二向箔——地球表面的二维投影
  4. 一家SaaS公司是怎么搞垮的?
  5. Unable to import maven project: See logs for details错误解决方法
  6. new InitialContext() 创建ejb实例的过程
  7. 机房管理日记——2014/10/17
  8. 想开家母婴用品店需要多少钱
  9. CSS回流(Reflow)与重绘(Repaint)
  10. 中国皮革协会副理事长陈占光一行莅临百华鞋业指导工作