点击上方,选择星标置顶,每天给你送干货

阅读大概需要8分钟

跟随小博主,每天进步一丢丢

作者:Carrie

CSDN:御风而行Carrie

论文链接:https://www.aclweb.org/anthology/D19-1096.pdf

论文代码:https://github.com/RowitZou/LGN

一. 介绍

Motivation

  • 基于字符的中文NER中,同一个字符可能属于多个lexicon word,存在 overlapping ambiguity 的现象, 这会对最终标注结果造成误导。例如图1中, “河流” 也可属于 "流经" 两个词中,都含有同一个"流"字。

  • Ma等人于2014年提出,想解决overlapping across strings的问题,需要引入「整个句子中的上下文」以及「来自高层的信息」;然而,现有的基于RNN的序列模型,不能让字符收到序列方向上 remain characters 的信息;

Proposed Model

基于以上问题,本文提出一种基于 lexicon信息的图网络 lexicon-based Graph Neural Networks (LGN):

  • 图结构能够打破 RNN 序列结构的限制,使 character 和 lexicon word 间有更充分的联系。

  • 基于 lexicon word 将相关的字符连接起来,能够捕捉局部的构成信息

  • 设计一个全局的中继节点来捕捉「长距离依赖」「高层次的特征信息」

  • LGN 将通过节点的"入边"和全局中继节点,对邻居节点进行聚合(正是由于这种多轮的聚合,使得全局上下文信息可以用来对模糊的词语进行区分);

Contributions

  • 本文提出基于** lexicon 信息来构建图网络**,并将中文NER问题建模为「图中的节点分类」问题;

  • 本文模型能够捕捉到「全局的上下文信息」「局部的构成信息」,通过迭代聚合机制来解决中文中「词语边界模糊」的问题;

  • 实验结果证明了本文模型的有效性。

二. 相关工作

Related works包括两部分:

  • 一是介绍了「现有的基于字符的中文NER工作」,并指出「现有的方法难以利用到全局信息」

  • 二是介绍了「图神经网络」及其在NLP中的应用,并指出「目前的工作中,很少有通过中文字符间联系进行构图的」

三. 模型

构图与聚合

构图

关于构图的示意如图2所示,主要包括以下要点:

  • 每个句子被转化为一个「有向图」

  • 每个「字符」被作为图中的「一个节点」, 在每个lexicon word的第一个和最后一个字符间构建「一条边」, 每条边代表了「潜在的可能存在词语(即lexicon word)的特征」

  • 构建一个「全局的中继节点」,它与图中的每个边和点都相连, 用来「汇聚所有边和点的信息」,从而消除词语之间的边界模糊;

  • 由于全局中继节点的存在,图中任意两个不邻接的节点之间都是彼此的二阶邻居,可以通过两次节点更新来接收彼此的非局部的信息;

  • 另外,对以上的图结构进行转置得到一个所有边都反向后的「反向图」,将「反向图」「原图」中得到的字符表示进行拼接,作为最终的字符表示;

局部聚合

局部聚合包括对节点的聚合和对边的聚合。

  • 节点:

    • 令节点表示为, 该节点的入边集合为, 则通过「多头attn机制」来聚合边及其对应的前驱节点;

    • 这样做的出发点是,入边和前驱节点能够有效地表明潜在word的边界信息。

  • 边:

    • 令 字符 和 之间的边, 同样通过「多头attn机制」进行对 和 到 之间的字符进行聚合。

对于句子中的每个字符,通过LSTM得到其原始的「节点表示」;对于lexicon words, 通过每个word的词向量来作为图中「边的初始表示」;node和edge的初始化表示平均后得到「全局中继节点的初始化表示」

全局聚合

为了捕获「长距离依赖」「高层次的特征」,通过全局节点对每条边和节点的表示进行聚合(Figure3-c所示)。

经过这样多轮的信息交换后, 能够包含「全局的特征信息」,而  包含了局部的字符信息。

Recurrent-based Update Module

节点更新

通过如下公式进行节点更新:其中,

  • 表示 context window 范围内邻接向量的拼接操作,本文中 context_window 窗口大小为 2. (因为根据相关文献,bigram的字符操作对序列标注问题是非常有用的)

  • 三个门结构 三个门结构用来控制「全局特征向字符表示 c_i^t 的信息流动,从而调节lexicon的attn权值,缓解序列上边界模糊的问题」

为了更好地利用 字符、lexicon word与句子间的关系, 本文还类似地设计了「边更新模块」「全局节点更新模块」

Edge Update

边更新通过如下公式进行

Global Relay Node Update

全局节点更新通过如下公式进行, 目的在于将有用的信息分享到上下文:

Decode

最后,图中节点的表示即每个字符的表示。通过「CRF」对字符对应标签进行解码。

四. 实验设置

主要介绍了数据集、用于比较的 baseline models 等。

五. 实验分析

作者首先展示了LGN模型在不同数据集上的实验结果,然后从不同方面对LGN模型进行了分析。

  • 研究图结构上消息传递步数对结果的影响

    • 结论: 随着更新步数的增加,LGN能捕获到更多有用的信息;

  • 去掉 全局节点

    • 结论:全局连接在图结构中是非常有用的

  • 去掉 lexicon words 信息

    • 对于字符级别的中文NER任务,lexicon words 信息是非常重要的

  • 与 Lattice-LSTM 做对比,分别去掉 LGN 和 Lattice-LSTM 的双向结 以及CRF层,结果显示 LGN 可以取得更好的效果,因此认为 LGN 具有对句子建模的更强的能力。

  • 研究句子长度对实验结果的影响

    • 随着句子长度的增加,Lattice-LSTM 的accuracy 下降明显,而 LGB不仅对短句效果较好,而且对句子长度超过80个字符时仍旧有效。

  • Case Study: 通过对 Lattice-LSTM、LGN-global, LGN-1step 和 LGN 的标注结果进行对比,展示 LGN 处理 word ambiguity problme 的能力。


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

【论文解读】LGN: 基于词典构建的中文NER图神经网络相关推荐

  1. 论文解读| NeurIPS 2022:面向科学任务的图神经网络设计

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 近日中国人民大学高瓴人工智能学院师生有23篇论文被CCF A类国际学术会议NeurIPS 2022录用.神经信息处理系统大会(Neura ...

  2. WWW 2021最佳论文亚军:基于属性补全的异质图神经网络新架构

    ©作者 | 机器之心编辑部 来源 | 机器之心 4 月 23 日,万维网顶会 WWW-2021(The Web Conference 2021: International World Wide We ...

  3. 论文解读:基于迁移移学习的深卷积神经网络,用于从蛋白质主要序列预测与白血病相关的磷酸化位点

    A Transfer-Learning-Based Deep Convolutional Neural Network for Predicting Leukemia-Related Phosphor ...

  4. 论文解读丨基于局部特征保留的图卷积神经网络架构(LPD-GCN)

    本文分享自华为云社区<论文解读:基于局部特征保留的图卷积神经网络架构(LPD-GCN)>,原文作者:PG13 . 近些年,很多研究者开发了许多基于图卷积网络的方法用于图级表示学习和分类应用 ...

  5. 直播 | KDD 2021论文解读:基于协同对比学习的自监督异质图神经网络

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  6. 基于词典规则的中文分词(C语言实现)

    0 引 言 自然语言处理(Natural Language Processing, NLP)是以语言为对象,利用计算机技术来分析.理解和处理自然语言的一门学科,即把计算机作为语言研究的强大工具,在计算 ...

  7. LEBERT:基于词汇增强的中文NER模型

    01 任务概述 命名实体识别(简称NER)是NLP中的经典任务,即给定一个输入文本,让模型识别出文本中的实体信息. 在中文NER任务中,可以分为 Character-based (字符粒度) 和 Wo ...

  8. rstudio怎么安装ggplot2_如何基于ggplot2构建相关系数矩阵热图

    点击关注了解更多精彩内容!! 古人云:有缘千里能相会,无缘对面不相逢.铁哥认为"缘分"如果用数据来表示的话,那么可以用相关系数来进行量化.如果你和一个人的缘分足够深,那么你们之间的 ...

  9. 微软亚洲研究院论文解读:基于动态词表的对话生成研究(PPT+视频)

    本文为 12 月 27 日,北京航空航天大学博士生.微软亚洲研究院实习生--吴俣在第 21 期 PhD Talk 中的直播分享实录. 本次 Talk 的主题是基于动态词表的对话生成研究.首先,吴俣博士 ...

  10. AI论文解读:基于Transformer的多目标跟踪方法TrackFormer

    摘要:多目标跟踪这个具有挑战性的任务需要同时完成跟踪目标的初始化.定位并构建时空上的跟踪轨迹.本文将这个任务构建为一个帧到帧的集合预测问题,并提出了一个基于transformer的端到端的多目标跟踪方 ...

最新文章

  1. android小球移动代码,Android自定义圆形View实现小球跟随手指移动效果
  2. ggplot2设置坐标轴范围_R可视化03|ggplot2图层-几何对象图层(geom layer)
  3. 【直播回放】新手如何入门并学习计算机视觉?
  4. boost::stacktrace::detail::void_ptr_cast相关的测试程序
  5. 【Linux系统编程】特殊进程之僵尸进程
  6. ofstream的使用方法--超级精细。C++文件写入、读出函数(转)
  7. 【Kafka】如何判断一个kafka集群是否稳定
  8. JQuery 表格拖动调整列宽效果
  9. 线下广告投放方案_本地餐饮该怎样做好广告投放?传统广告投放的弊端和痛点...
  10. c语言指针教学word,C语言中的指针和指针教学
  11. windows传文件给linux工具
  12. Linux 打开文件显示: No such file or directory
  13. jenkins自动打包报错:cannot find symbol
  14. 如何在Docker容器里开启fail2ban防止SSH暴力破解
  15. 全国12315平台网上投诉与举报提示“含有不规范用语”的应对方法
  16. TCP BBR Startup gain计算总结和Startup失速问题
  17. 三通道图像和四通道图像
  18. Lync 2010移动客户端无法登陆的解决办法
  19. 用计算机玩穿越火线,为什么每次玩穿越火线电脑就特别卡?
  20. 11月25日:tp框架中的架构,配置,路由,控制器

热门文章

  1. 天气暖和了,我却感冒了
  2. 虚继承 - C++快速入门29
  3. ORACLE 字符串操作
  4. 13.3.5 【接口和委托的泛型可变性】限制和说明
  5. ZOJ 1610Count the Colors
  6. 你的第一个Windows程序——绘制窗口
  7. [转]使用RDLC报表(1) -(4)
  8. Android 获取联系人列表
  9. Xml 学习 ---引自MSDN CHINA
  10. Confluence 6 配置 Office 转换器