• 概述: LGR: 基于词典构图的中文NER图神经网络
  • 论文链接
  • 论文代码

一. 介绍

Motivation

  • 基于字符的中文NER中,同一个字符可能属于多个lexicon word,存在 overlapping ambiguity 的现象, 这会对最终标注结果造成误导。例如图1中, “河流” 也可属于 “流经” 两个词中,都含有同一个"流"字。

  • Ma等人于2014年提出,想解决overlapping across strings的问题,需要引入整个句子中的上下文以及来自高层的信息;然而,现有的基于RNN的序列模型,不能让字符收到序列方向上 remain characters 的信息;

Proposed Model

基于以上问题,本文提出一种基于 lexicon信息的图网络 lexicon-based Graph Neural Networks (LGN):

  • 图结构能够打破 RNN 序列结构的限制,使 character 和 lexicon word 间有更充分的联系。

  • 基于 lexicon word 将相关的字符连接起来,能够捕捉局部的构成信息

  • 设计一个全局的中继节点来捕捉长距离依赖高层次的特征信息

  • LGN 将通过节点的"入边"和全局中继节点,对邻居节点进行聚合(正是由于这种多轮的聚合,使得全局上下文信息可以用来对模糊的词语进行区分);

Contributions

  • 本文提出基于** lexicon 信息来构建图网络**,并将中文NER问题建模为图中的节点分类问题;

  • 本文模型能够捕捉到全局的上下文信息局部的构成信息,通过迭代聚合机制来解决中文中词语边界模糊的问题;

  • 实验结果证明了本文模型的有效性。

二. 相关工作

Related works包括两部分:

  • 一是介绍了现有的基于字符的中文NER工作,并指出现有的方法难以利用到全局信息

  • 二是介绍了图神经网络及其在NLP中的应用,并指出目前的工作中,很少有通过中文字符间联系进行构图的

三. 模型

构图与聚合

构图

关于构图的示意如图2所示,主要包括以下要点:

  • 每个句子被转化为一个有向图

  • 每个字符被作为图中的一个节点, 在每个lexicon word的第一个和最后一个字符间构建一条边, 每条边代表了潜在的可能存在词语(即lexicon word)的特征

  • 构建一个全局的中继节点,它与图中的每个边和点都相连, 用来汇聚所有边和点的信息,从而消除词语之间的边界模糊;

  • 由于全局中继节点的存在,图中任意两个不邻接的节点之间都是彼此的二阶邻居,可以通过两次节点更新来接收彼此的非局部的信息;

  • 另外,对以上的图结构进行转置得到一个所有边都反向后的反向图,将反向图原图中得到的字符表示进行拼接,作为最终的字符表示;

局部聚合

局部聚合包括对节点的聚合和对边的聚合。

  • 节点:

    • 令节点表示为citc_i^tcit​, 该节点的入边集合为E={ek,it}E=\{e_{k,i}^t\}E={ek,it​}, 则通过多头attn机制来聚合边ek,ie_{k,i}ek,i​及其对应的前驱节点ckc_kck​;
    • 这样做的出发点是,入边和前驱节点能够有效地表明潜在word的边界信息。
  • 边:

    • 令 eb,ete_{b,e}^teb,et​ 字符 cbtc_b^tcbt​ 和 cetc_e^tcet​ 之间的边, 同样通过多头attn机制进行对 eb,ete_{b,e}^teb,et​ 和 cbtc_b^tcbt​ 到 cetc_e^tcet​ 之间的字符进行聚合。

对于句子中的每个字符,通过LSTM得到其原始的节点表示;对于lexicon words, 通过每个word的词向量来作为图中边的初始表示;node和edge的初始化表示平均后得到全局中继节点的初始化表示

全局聚合

为了捕获长距离依赖高层次的特征,通过全局节点对每条边和节点的表示进行聚合(Figure3-c所示)。

经过这样多轮的信息交换后,gt^\hat{g_t}gt​^​ 能够包含全局的特征信息,而 eb,et^\hat{e_{b,e}^t}eb,et​^​ 包含了局部的字符信息。

Recurrent-based Update Module

节点更新

通过如下公式进行节点更新:

其中,

  • ξit{\xi}_i^tξit​ 表示 context window 范围内邻接向量的拼接操作,本文中 context_window 窗口大小为 2. (因为根据相关文献,bigram的字符操作对序列标注问题是非常有用的)

  • 三个门结构 iit^\hat{i_i^t}iit​^​ fit^\hat{f_i^t}fit​^​ lit^\hat{l_i^t}lit​^​ 三个门结构用来控制全局特征向字符表示 c_i^t 的信息流动,从而调节lexicon的attn权值,缓解序列上边界模糊的问题

为了更好地利用 字符、lexicon word与句子间的关系, 本文还类似地设计了边更新模块全局节点更新模块

Edge Update

边更新通过如下公式进行

Global Relay Node Update

全局节点更新通过如下公式进行, 目的在于将有用的信息分享到上下文:

Decode

最后,图中节点的表示即每个字符的表示。通过CRF对字符对应标签进行解码。

四. 实验设置

主要介绍了数据集、用于比较的 baseline models 等。

五. 实验分析

作者首先展示了LGN模型在不同数据集上的实验结果,然后从不同方面对LGN模型进行了分析。

  • 研究图结构上消息传递步数对结果的影响

    • 结论: 随着更新步数的增加,LGN能捕获到更多有用的信息;
  • 去掉 全局节点

    • 结论:全局连接在图结构中是非常有用的
  • 去掉 lexicon words 信息

    • 对于字符级别的中文NER任务,lexicon words 信息是非常重要的
  • 与 Lattice-LSTM 做对比,分别去掉 LGN 和 Lattice-LSTM 的双向结 以及CRF层,结果显示 LGN 可以取得更好的效果,因此认为 LGN 具有对句子建模的更强的能力。

  • 研究句子长度对实验结果的影响

    • 随着句子长度的增加,Lattice-LSTM 的accuracy 下降明显,而
      LGB不仅对短句效果较好,而且对句子长度超过80个字符时仍旧有效。
  • Case Study: 通过对 Lattice-LSTM、LGN-global, LGN-1step 和 LGN 的标注结果进行对比,展示 LGN 处理 word ambiguity problme 的能力。


了解更多论文分享信息,请关注公众号深度学习的知识小屋

[论文笔记] EMNLP2019: A Lexicon-Based Graph Neural Network for Chinese NER相关推荐

  1. 论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting

    0 abstract 空间时间序列预测问题出现在广泛的应用中,如环境和交通问题.由于存在特定的空间.短期和长期模式,以及维度的诅咒,这些问题具有挑战性. 在本文中,我们提出了一个用于大规模空间时间序列 ...

  2. 【论文笔记】MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

    1.Task 异构图表示学习 2.Motivation 先前的工作存在如下问题: 忽略节点的属性特征 舍弃元路径内部节点,仅使用元路径中的头尾节点 仅使一种元路径 3.Methodology 为解决上 ...

  3. PPT:A Lexicon-Based Graph Neural Network for Chinese NER

  4. 【论文阅读】MAGNN: Metapath Aggregated Graph Neural Network for Heterogeneous Graph Embedding

    用于异质图嵌入的元路径聚合图神经网络 摘要 1 引言 2 准备工作 3 相关工作 3.1 GNN 3.2 异质图嵌入 4 方法 4.1 节点内容转换 4.2 元路径内部聚合 4.3 元路径间的聚合 4 ...

  5. 论文笔记(SocialGCN: An Efficient Graph Convolutional Network based Model for Social Recommendation)

    一个有效的基于图卷积神经网络的社交推荐模型 原文链接:SocialGCN: An Efficient Graph Convolutional Network based Model for Socia ...

  6. 论文浏览:Edge Based Graph Neural Network to Recognize Semigraph Representation of English Alphabets

    一.简介 介绍了基于边的图神经网络,用于识别英文大写半字母. 图神经网络(GNN)是一种连接主义模型,由过渡网络(两个前馈神经网络(FNN))和输出网络根据图拓扑结构的递归体系结构连接而成.将图中边的 ...

  7. 论文笔记 NLPCC 2016|A Convolution BiLSTM Neural Network Model for Chinese Event Extraction

    文章目录 1 简介 1.1 动机 1.2 创新 2 背景知识 3 方法 3.1 触发词标记 3.1.1 单词级别模型 3.1.2 字符级别模型 3.2 论元标记 4 实验 4.1 触发词标记 4.2 ...

  8. 论文笔记22:QRNN3D: 3D Quasi-Recurrent Neural Network for Hyperspectral Image Denoising

    3D Quasi-Recurrent Neural Network for Hyperspectral Image Denoising-网络复杂 引言 相关工作 方法 3D Quasi-Recurre ...

  9. 论文笔记:WWW 2019 Heterogeneous Graph Attention Network

    1.前言 论文链接:https://arxiv.org/pdf/1903.07293v1.pdf github:https://github.com/Jhy1993/HAN 图神经网络作为一种基于深度 ...

  10. 论文笔记01——PoseCNN:A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes

    参考链接: https://blog.csdn.net/nwu_NBL/article/details/83176353 论文标题:<PoseCNN:杂乱场景中物体6D姿态估计的卷积神经网络&g ...

最新文章

  1. Cross-Validation(交叉验证)详解
  2. 2020 年 Service Mesh 技术展望
  3. git 命令详解和Android Studio代码管理工具
  4. 关于我使用的angular.js的上传---FileUploader
  5. 关于sizeof的一些东西
  6. mysql linux 数据库文件位置_mysql在linux下修改mysql数据库文件位置
  7. HDU1427 速算24点【DFS】
  8. progressbar 自定义样式_Progressbar的简单使用
  9. 群同态基本定理证明_群论(2): 群作用, Sylow定理
  10. 内网穿透和路由器端口映射什么区别?
  11. vue打卡日历_VUE也有自己的日历组件
  12. 机器人视觉系统分为哪几种,主要包括哪些关键技术?
  13. 图像算法工程师 笔试题集锦
  14. 人工智能给未来教育的挑战
  15. 高效文件管理-Git管理个人文件指南
  16. matlab中的帮助命令
  17. python读json文件json.decoder.JSONDecodeError终极解决大法
  18. win服务器系统更新失败怎么办,win10系统更新失败怎么办
  19. 一年级古诗风语文知识心田花开汇总
  20. 小布助手,身入大千世界

热门文章

  1. Matrix的左倾和右倾放大和缩小和倒影和双指放大和PhotoView
  2. 左对齐杨辉三角python_什么是左的错误?
  3. 计算长方体、四棱锥的表面积和体积
  4. 腾达ac5服务器无响应,腾达路由器AC6告诉你WiFi设置5大误区
  5. WM8978音频模块梳理
  6. 【算法】牛顿迭代法求平方根及多次方根
  7. 如何把照片转成pdf文件,支持合并转换
  8. html a 标签 邮件超链接 发送邮件
  9. SDRAM内存条时序特点
  10. java动态表头_easyPOI动态表头