©PaperWeekly 原创 · 作者 | 宁金忠

学校 | 大连理工大学博士生

研究方向 | 信息抽取

本篇论文发表于 ACL 2021,作者聚焦于中文 NER 任务。近些年来,在模型中引入词汇信息已经成为提升中文 NER 性能的主流方法。已有的中文 NER 词增强方式主要通过 lattice 结构在模型中引入词汇的边界信息和词嵌入信息。现如今我们使用的汉字从古老的象形文字演化而来,汉字中包含的偏旁部首等结构可以代表某些含义。因此,本文的作者提出在模型中融合进汉字的结构信息(例如部首等)。

论文标题:

MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition

论文链接:

https://aclanthology.org/2021.acl-long.121.pdf

中文词汇增强回顾

中文 NER 的词汇增强主要分为两条路线:

1. Dynamic Architecture:通过动态结构,在模型中注入词汇信息;

2. Adaptive Embedding:将词汇信息融合到 Embeding 中。

近些年来各大顶会上的中文 NER 词汇增强相关论文总结如下(参考博文 [1] ):

其具体实现方法总结为:

▲ 词增强NER模型简介

已有的词增强 NER 模型的性能如下图所示:

▲ 模型实验结果(表中LEBERT使用的词表和预训练词向量与其他模型不同,结果在此处仅做参考,详情见论文)

论文方法介绍

文中作者的主要贡献为:

  • 在中文 NER 模型中使用了多元数据特征(字特征,词特征以及汉字的结构特征)。

  • 提出了一种能够将字特征、词特征和部首特征结合的双流(two-stream)模型来提高 MECT 方法的性能。

  • 在多个中文 NER 数据集上的结果说明了模型结果的有效性。

▲ The whole architecture

本文模型的整体架构如上图所示。模型的输入为中文原始文本,例如图中所示的“南京市长江大桥”。模型中采用了模型 FLAT 中类似的 encoder 结构,从而可以将汉字以及词汇的语义 & 边界信息整合到模型当中。

▲ FLAT

关于 FLAT,不了解的小伙伴可以通过该帖子 [1] 进行了解。

与 FLAT 中的改进 Transformer encoder 不同的是,本文的作者提出了一种使用 Cross-Transformer 模块的 two-stream 模型。作者把汉字和包含汉字的词语看作一个“元(Meta)”,把每个汉字的包含的字根看做另外一个“元”。之后使用与 Transformer 中类似的自注意力机制,作者对两个“元”中的数据进行双路的交叉计算相关性,从而实现了多元信息的融合。

另外,作者在两个“元”的自注意力矩阵中加入一个随机初始化的注意力矩阵来对多元数据之前注意力值的偏差进行校正。

2.1 使用CNN提取Radical-level特征

汉字是象形文字,其字形和字义具有非常密切的联系。例如,包含“”或者“”的文字通常和植物有关,包含“”的文字通常和疾病有关。因此,作者采用汉字中包含的字根(Structural Components)的嵌入特征来表达汉字的结构信息。作者使用的拆分方法是将汉字拆分成无法拆分的最小字根单位(如下图所示):

▲ 汉字结构信息

之后作者使用如下图所示的 CNN 网络来提取 Radical-level 特征。

作者首先对原始文本中的汉字进行拆字,然后把得到的字根特征输入到 CNN 特征提取器当中,然后使用最大值池化和全连接网络得到每个汉字的 Radical-level 特征。

2.2 Cross-Transformer模块

获取 Radical-level 特征特征后,作者使用 Cross-Transformer 模块(如下图所示)来对融合多元数据。

模型的输入 通过词嵌入特征和 Radical-level 嵌入特征的线性映射得到:

其中, 和 分别是 lattice 嵌入特征和 Radical-level 特征, 为单位矩阵,每一个线性映射矩阵 均为可学习参数。之后,作者使用和 FLAT 模型一样的相位位置编码来计算 Cross-Transformer 的注意力矩阵:

其中 是 lattice 注意力得分, 表示部首注意力得分, 为可学习参数。 为相对位置编码,和 FLAT 中原本的相对位置编码相比,进行了一定的简化:

2.3 Random Attention & 融合方法

Random Attention 是指在注意力矩阵上加上的一个随机初始化的参数学习矩阵:

关于模型的融合方法,作者将两路的注意力值拼接以后经过一个线性映射来多元数据中提取的特征。最后,作者 mask 掉提取的词部分的特征,将提取的字特征通过 CRF 来进行解码。

实验结果展示

3.1 主试验

作者在四个经典的中文 NER 数据集(Weibo,Resume,MSRA,Ontonotes 4.0)上进行了实验,并且选取 FLAT 作为 baseline。

结果显示,相比于 baseline 模型 FLAT,在模型中加入汉字结构特征以后,性能有了一定提升。据观察,在小规模数据集(例如 weibo)或者多类别数据集(Ontonotes 4.0)上,模型的提升更加显著。

3.2 Cross-Transformer注意力值可视化

▲ Visualization of cross-attention

从上图中(a)可以看出,Radical 注意力更关注全局的相关性,而 lattice 注意力更关心汉字和词汇的相关性。

3.3 Radical特征的影响

▲ Visualization of cross-attention

  • 作者利用 Resume 数据集训练得到的汉字 radical-level embedding 进行了可视化,发现结构相近或者包含字根相近的字,在 radical-level embedding 空间中的距离就越近。结果如上图所示。

  • 作者发现引入 radical-level 特征,可是使得一些常见的错误得到修正。例如在 Ontonotes 4.0 数据集中,“百分之四十三点二(43.2%)”被标注成了 PER 人名。引入 radical-level 特征后可以对该问题进行校正。

3.4 推理速度

▲ Relative inference speed of each model

由于模型采用了 Transformer 编码结构,模型具有不错的推理速度。

3.5 消融实验

▲ 消融试验方案

▲ 消融实验结果

作者设计了三个消融实验:

  • 实验 A:把 Radical 特征和 lattice 特征拼接,使用 single-stream 模型。

  • 实验 B:依然使用 two-stream 模型,但两个 stream 之间不再交叉计算注意力值。

  • -RA 实验:指去掉 random attention 的实验。

实验结果显示,模型中的模块均有效。

结论

本文提出了一个融入汉字结构特征的 two-stream Transformer 编码模型——MECT,该模型在多个中文 NER 数据集上均取得了很好的效果。

参考文献

[1] Li X ,  Yan H ,  Qiu X , et al. FLAT: Chinese NER Using Flat-Lattice Transformer[C]. ACL 2020.

[2] Wu S, Song X, Feng Z. MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition[J]. ACL 2021.

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

中文NER涨点神器!基于多元数据的双流Transformer编码模型相关推荐

  1. 【论文泛读164】MECT:基于多元数据嵌入的中文命名实体识别交叉变换器

    贴一下汇总贴:论文阅读记录 论文链接:<MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Enti ...

  2. 涨点神器!ELSA:增强视觉Transformer的局部自注意力

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达. 转载自:极市平台  |  作者:happy 导读 当把Transformer中的LSA替换为DwConv/ ...

  3. 达观数据如何打造一个中文NER系统

    1 NER简介 NER(Named Entity Recognition,命名实体识别)又称作专名识别,是自然语言处理中常见的一项任务,使用的范围非常广.命名实体通常指的是文本中具有特别意义或者指代性 ...

  4. 外文翻译:Study on Key Technology of Power Users Credit Rating Evaluation Ba(基于大数据的电力用户信用评级评估关键技术研究)

    (博文并非完整版,图片并未能加载,完整版参见 外文翻译:基于大数据的电力用户信用评级评估关键技术研究) ABSTRACT Electricity power supply company has en ...

  5. 多元经验模态分解_【Applied Energy最新原创论文】一个基于多元搜索引擎数据的多尺度油价预测方法...

    原文信息: A multi-scale method for forecasting oil price with multi-factor search engine data 原文链接: http ...

  6. 中文整合包_MIMOSA2: 基于微生物组和代谢组数据的整合分析

    MIMOSA2:基于微生物组和代谢组数据的整合分析 MIMOSA2 升级自MIMOSA1.是 Borenstein 实验室(http://borensteinlab.com/ , 专注宏基因组系统 生 ...

  7. LEBERT:基于词汇增强的中文NER模型

    01 任务概述 命名实体识别(简称NER)是NLP中的经典任务,即给定一个输入文本,让模型识别出文本中的实体信息. 在中文NER任务中,可以分为 Character-based (字符粒度) 和 Wo ...

  8. 基于大数据的中文舆情分析

    本文出自我的公众号:程序员江湖. 满满干货,关注就送. 基于大数据的中文舆情分析 助力企业洞察商机 社交媒体发展日益瞩目,在这个社会化媒体时代,用户成为企业最好的品牌推广大使.本文以新浪微博上某大型商 ...

  9. 【NLP】维基百科中文数据训练word2vec词向量模型——基于gensim库

    前言   本篇主要是基于gensim 库中的 Word2Vec 模型,使用维基百科中文数据训练word2vec 词向量模型,大体步骤如下: 数据预处理 模型的训练 模型的测试 准备条件: Window ...

最新文章

  1. javaScript实现归并排序
  2. bzoj 2190: [SDOI2008]仪仗队 线性欧拉函数
  3. html 布局满屏,CSS全屏布局的5种方式
  4. 图像灰度图,直方图,像素通道问题
  5. bootstrap validator 提供了哪些验证函数
  6. mysql 5.7 延迟同步_MySQL5.6升级5.7时出现主从延迟问题排查过程
  7. 一天到晚都在转笔,不需要写代码、调试,用眼看就行了?
  8. 磁共振成像(MRI)
  9. pip 批量完全卸载包
  10. [Swift]集成京东联盟SDK
  11. win10添加开机启动项_Win10+Deepin双系统开启启动项调整
  12. matlab:双或三方演化博弈,lotka-Volterra 1.双方演化博弈
  13. 入门OJ:郭嘉的消息传递
  14. 记事狗微博php,记事狗微博系统_366rtc 源码采用php实现 - 下载 - 搜珍网
  15. 四川大学计算机专业调剂,四川大学计算机学院(软件学院)2019考研调剂信息...
  16. 静态,关键字:static 接口,IUSB , API 接口关键字:interface
  17. 虚拟化(一):虚拟化及vmware产品介绍
  18. java aes对称加密算法_Java实现AES对称加密算法
  19. 移动端开发网页时,有部分字体无故变大或变小
  20. 百度地图全景——百度经纬度显示全景

热门文章

  1. 直播预告 | 如何在有限数据下实现资讯类网站海量信息自动分类
  2. 虚拟机硬盘启动计算机后黑屏,高手亲自教告诉你win7虚拟机启动后黑屏的操作方案...
  3. django——会话追踪技术
  4. bzoj3192: [JLOI2013]删除物品(树状数组)
  5. [Lua]弱引用table
  6. python之知乎的正确打开方式
  7. codeforce 589B枚举
  8. java框架----commonmark的使用(一)
  9. jenkins-cli命令使用总结
  10. [Django]网页中利用ajax实现批量导入数据功能