一,题目

Recognizing Complex Entity Mentions:A Review and Future Directions

识别复杂实体mentions:回顾与未来方向

Dai X . Recognizing Complex Entity Mentions: A Review and Future Directions[C]// The ACL 2018 Student Research Workshop. 2018.

二,作者

Xiang Dai
CSIRO Data61 and School of IT, University of Sydney
Sydney, Australia
悉尼大学

三,摘要

对可处理复杂实体mentions识别的方法作一个综述回顾,作了分类(token层,句子层),研究了下一步的方向。

四,遇到什么问题?什么复杂实体?

NER很重要,它是很多下游的基础。

传统NER识别定义为给一串tokens,输出一串三元组(开始位置,结束位置,类型);这种方法的成立条件为:a. 一个NE的Mentions是连接的;b. mentions之间不重叠;

传统NER的最常用标注:使用BIO或BIOLU标注集对一个句中的tokens进行标注,标注带有这个实体的类型信息。

传统NER的最常用模型:线性CRF,BiLSTM-CRF

可是,实际情况:nested(嵌套), overlapping(重叠), discontinuous(不连续) NE mentions <==定义为==> complex entity mentions,具体有如下四种情况:

Nested NE mentions : 一个NE mentions被另一个完全包含。

Multi-type NE mentions: 一个NE mentions有两个类型。可以理解为Nested NE的一种极端情况,Mentions A与Mentions B互相包含。即一个实体Mentions却充当着两类角色,最后会被考虑成是两个Mentions。

例如EPPI语料:proteins(蛋白质)是drug(药),也是compound(化学成份).作为药时,蛋白质可以对细胞是起作用的。

Overlapping NE mentions: Mentions A与Mentions B有交集,可是不存在哪个完成包含另一个。

Discontinuous NE mentions: 由不连接的Tokens组成一个实体mentions的。

例如上面的“intense plevic pain”,这个实体mention是分开地在句子中存在的,即“intense pelvic”与“back pain”.

五,基于Token的方法

把基于序列标注的一系统方法定义为基于Token的方法,典型的为线性CRF:

基于Token方法的考虑,既然现在的标注不满足当前的复杂实体mentions,就扩展标注集合。

Metke-Jimenez and Karimi (2015): Concept extraction to identify adverse drug reactions in medical forums: A comparison of algorithms

BIO模式变种,试图去表达非连接的与重叠的NE Mentions,在BIO的基础上加入{ BD, ID, BH, IH},对BI这两个标注的非连接与重叠的扩展;

BD:Beginning of Discontinuous body— 定义一个不连接mentsions的独立的部分;

ID:Inside of Discontinuous body

BH:Beginning of Head – 定义了被多个mentions共享的部分;

IH:Inside of Head

缺点:就算是上面那个这个简单的例子,这种方法却没有很好的标注出来,对于各个mentions在一起时,这个是不可的了。

Muis and Lu (2016):介绍了model ambiguity这个概念,从理论上证明了基于BIO的模式一般具有很高的歧义性,故在实际的使用中具有比较低的正确率。另外还有一个局限性,BIO只支持单个类型的重叠的情况。

Schneider et al. (2014): Discriminative lexical semantic segmentation with gaps: Running the mwegamut

BIO模式变种,解决不连续的多词与嵌套的问题,加入了两个比较严格限制:

a. 一个表示被另一个表示完成包含,但是不重叠;— 即是嵌套

b. 这个嵌套结构最多只能有两层。

显然,这个假设也太严格了。对于复杂的现实环境还是比较难满足这个限制的

Alex et al. (2007) :Recognising nested named entities in biomedical text

基于最大熵模型提出了三个方法去解决nested实体mentions问题。

方法1: Layering(分层方法)

识别器首先识别最内层或最外层的mentions,然后再去识别最内层或最外层的下一层的mentions,最后输出不同的标注结果并作一个联合。

方法2: Joined labeling

每个词被赋以多层合并起来的标签,然后标注器去训练这些合并的标签,在预测时再把相应该的标签解码回去。

方法3: Cascade

对于每个实体类型采用单独的模型去训练,模型使用前面模型的结果作为特征输入到后面的模型中去。虽然很难去分类与分组实体模型,可是这个效果在这三个方法中是最好的。

Byrne (2007): Nested named entity recognition in historical archive text

Xu et al. (2017):A local detection approach for named entity recognition and mention detection

两个采用相似的方法处理Nested问题。具体方法把可能的相邻的tokens连接起来形成可能的spans.然后这个spans与左右相邻的tonken一起送入到分类器中,分类器判断是否是一个mentions,当判断为mentions后,判断其类型。

六,基于Sentence的方法

不是预测某个token或几个token属于某个mentions或者是预测mentions的分类,而是直接预测在一个句子中NE mentions的一个组合体。

McDonald et al. (2005):Flexible text segmentation with structured multilabel classifification

提出结构化多标签分类,不用开始与结束的索引去处理这个问题,而是用一组token位置集去表示NE mentions.

每个token使用IO方案去标注,优点,这个表示十分灵活。解码的时候,可以解码出所有可能的标注,歧义性比较低。缺点,时间复杂度大。

Finkel and Manning (2009):Nested named entity recognition

使用一个判别式句子成份分析器去识别nested NE mentions, 把句子表示成一棵句子成分分析树,每个mentions对应着树上的一个短语,另外每个节点需要在标注加上它的父及祖先的标注,以致CRF-CFG可以学习到NE mentions的嵌套情况。

Ringland (2016): Structured Named Entities

使用了Berkeley 分析器去研究了一个联合模型,展示出在没有使用特定的NER特征的情况下也可以达到很好的效果。

采用分析器方法的缺点:时间复杂度大,高质量的分析训练数据;

Lu and Roth (2015) ,Muis and Lu (2016):Learning to recognize discontiguous entities

提出了一种超图的方法。这些模型的训练目标是最大限度地提高由句子和提及编码超图组成的训练实例的对数可能性。 在推理阶段,模型将首先预测完整超图的所有可能的子超图中的一个子超图,并且预测的提及可以从输出子超图中解码。

缺点:在解决阶段,容易出现歧义。

七,总结

复杂实体的缺点:

a. 缺泛表示能力;

b. 计算的时间复杂大;

基于token的方法一般用在处理只有一种nested NE或不连接NE mentions的情境,对于多种复杂的情况不建议使用。

基于句子的方法,它比较灵活,也比较准确,可是它的时间复杂度却是比较高的。

提出的方向:

a. 降低时间复杂度;

b. 把Sequence-to-sequence的模型框架利用到NE的任务中,可以在预测阶段预测多个标注序列来解决这个问题;

c. 语料标注高成本,故主动学习是一个方向;

d. 基于char或采用联合模型去学习;

采用现成的含有复杂实体的数据(GENIA,CADEC,SemEval2014,ACE,NNE)去训练,使用标准的评估的指标(micro-average

precision, recall and f1-score)去评估提出的方法,另外由于复杂实体的复杂性,可以提出一个宽松的方法例如部分匹配或近似匹配来评估这些方法的有效性。

文章的思想很单一,就是对于某种NER实休的简单回顾,回了两大类方法,总结了这些方法的优缺点,解决这个特殊问题的方法不是太多,就得这两三种,加上之前看了一篇基于转移模型的非连接实体命名识别。大的方向,基于标签的扩展定义,句法成份分析,多分类,超图模型,转移等几个方法。其实这里面的核心是要基于图来处理这个问题了,可以认为这是一个升维的思路。【2】中的DYGIE,基于图的提出来之后,关于Overlapping的实体得到了一定程序的改进。

参考:

【1】[论文阅读笔记12]An Effective Transition-based Model for Discontinuous NER, https://blog.csdn.net/ld326/article/details/112968947

【2】[论文阅读笔记10]A General Framework for Information Extraction using Dynamic Span Graphs, https://blog.csdn.net/ld326/article/details/112802292

by happyprince.https://blog.csdn.net/ld326/article/details/113395265

[论文阅读笔记15]Recognizing Complex Entity Mentions:A Review and Future Directions相关推荐

  1. [论文阅读笔记14]Nested named entity recognition revisited

    一, 题目 Nested Named Entity Recognition Revisited 重访问的嵌套命名实体识别 二, 作者 Arzoo Katiyar and Claire Cardie D ...

  2. [论文阅读笔记15]GNN在多目标跟踪中的应用

    GNN简单来讲, 旨在通过融合顶点和边的特征进而提取出图(Graph)中的信息. 一个直觉的想法是, 在MOT中, 我们可以用顶点表示目标的特征, 边表示目标之间的关系, 进而一个构成的图就可以作为解 ...

  3. 自监督论文阅读笔记 Self-supervised Learning in Remote Sensing: A Review

    深度神经网络对大量数据的丰富结构进行建模的优势已经导致了计算机视觉.自然语言处理.自动语音识别和时间序列分析的重大突破.然而,深度神经网络的性能对训练数据的大小和质量非常敏感.因此,在过去十年中,已经 ...

  4. 论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强

    论文阅读笔记(15):Deep Subspace Clustering with Data Augmentation,深度子空间聚类+数据增强 摘要 1 介绍 2 相关工作 带增强的聚类方法 具有一致 ...

  5. DnCNN论文阅读笔记【MATLAB】

    DnCNN论文阅读笔记 论文信息: 论文代码:https://github.com/cszn/DnCNN Abstract 提出网络:DnCNNs 关键技术: Residual learning an ...

  6. [论文阅读笔记53]2021深度神经方法的关系三元组抽取综述

    1. 题目 Deep Neural Approaches to Relation Triplets Extraction: A Comprehensive Survey Tapas Nayak†, N ...

  7. [论文阅读笔记52]深度学习实体关系抽取研究综述

    来源:软件学报 2019 1.摘要: 围绕有监督和远程监督两个领域,系统总结了近几年来中外学者基于深度学习的实体关系 抽取研究进展,并对未来可能的研究方向进行了探讨和展望. 2.经典的实体关系抽取方法 ...

  8. Learning Multiview 3D point Cloud Registration论文阅读笔记

    Learning multiview 3D point cloud registration Abstract 提出了一种全新的,端到端的,可学习的多视角三维点云配准算法. 多视角配准往往需要两个阶段 ...

  9. 论文阅读笔记(五)——狐猴识别系统:一种便于狐猴个体识别的面部识别系统

    论文阅读笔记(五)--狐猴识别系统:一种便于狐猴个体识别的面部识别系统 论文简介 论文中文翻译:狐猴识别系统:一种便于狐猴个体识别的面部识别系统 论文名称:<LemurFaceID: a fac ...

最新文章

  1. linux c socket ip地址 字符串 数字 转换 inet_addr inet_ntoa
  2. Leetcode69场双周赛-第四题5931. 用邮票贴满网格图
  3. 使用ViewPager实现左右循环滑动图片
  4. java锁_Java锁
  5. 简说设计模式——组合模式
  6. 最小二乘法曲线拟合以及Matlab实现
  7. #今日说码栏目#第四集 各类选择器
  8. Python学习笔记:PYQT5 文字及绘图旋转
  9. Java中Method.invoke方法
  10. centos 之网络配置
  11. Android系统换字体不root,小编吐血整理,超实用免ROOT 安卓手机换字体软件
  12. 【备忘】Mongodb/Redis/HBase NoSql视频教程2017数据库自学教程
  13. 1_01李婉玲_数据结构_1012
  14. 关于那些最好玩的户外APP合集下(适合资深驴友、牛逼设计狮、装逼攻城狮)...
  15. HBASE RegionServer异常退出 Failed to close inode
  16. python中的步长值是什么意思?
  17. 传奇创世开发H5案例:121体育全民运动
  18. 清新黄色背景薪酬绩效考核管理模版PPT模板
  19. 西门子6ES7134-6JD00-0CA1的技术参数
  20. 上岸16K,薪资翻倍,在华为外包做测试是一种什么样的体验····

热门文章

  1. 龙芯1c300b开发语言,龙芯 1C0300B 主控芯片已成功进入激光打印机市场
  2. C#实现毫秒级计时器
  3. 腾讯QQ屏幕识图工具,对开发用处很多,特别对于需要图片文字识别的
  4. UVA 1603 Square Destroyer
  5. Problem G: 薪酬计算
  6. 最近很火的在线文件预览txt、doc、ppt、pdf、excel、jpg、png、zip、tar.gz等各种文件及压缩文件在线解压和预览,包括前后端设计和源码,编写搜索引擎多关键词检索名称和内容(四)
  7. STM32F105替换为AT32F403A注意事项
  8. PHP preg_match()函数
  9. svg + image/svg+xml 文件上传实现xss
  10. git切换master项目,新建分支new branch