《MECT: Multi-Metadata Embedding based Cross-Transformer forChinese Named Entity Recognition》的论文解析

纯属个人理解,欢迎批评指正
如果有时间的话,会有源码解析,欢迎关注一波

首先,本文的作者信息

个人理解

首先从我个人阅读这篇文章的感觉来看,作者的想法确实挺棒的,在FLAT BERT的基础上通过卷积神经网络提取汉字的笔画embedding ,然后通过一个交叉的transform 和 random attention 的方法将笔画、字符和单词信息融入到模型中。在最后对label 做预测的时候,将cross transformer 笔画一侧的token mask。
关于FLAT 预计这两天会写文章介绍一下,想了解的同学可以看一下我之后写的解读。

这里的motivation 在于 作者认为,在汉语里面,笔画,尤其是偏旁部首是可以引入一部分信息的,例如,草字头的多与植物有关,月字旁的多与身体部位有关。
因此,作者想在词汇的基础上引入笔画 信息。

模型部分

笔画embedding

作者的笔画embedding 个人理解采用的是首先把字里面的笔画提取出来,然后将笔画建立一个随机的embeddding lookup 表,也可能是one-hot 形式,然后利用CNN 将其卷成一个一维的embedding ,维度大小应该与token 的embedding 大小一致

有趣的是,作者通过余弦相似度 证明了这种提取embedding 的方法是有效的。

之后采用 cross 的方式将 字符、单词和笔画信息链接起来,其模型架构如下图所示:

左边为 FLAT模型,右边为笔画的transformer
之所以称为cross,是因为双方做attention 的Q 是来自对方的。
详细的模型信息可以看下图

左边的FLAT 可以看我的另一篇关于FLAT的解析
这里详细说一下右边,右边的embedding 就是由CNN得到的笔画embedding。

其QKV 通过下列公式计算得到:

这里值得注意的是,作者采用的Random attention.

同时作者也做了速度和效率的对比

在实验效果方面,这里就不过多介绍了

MECT: Multi-Metadata Embedding based Cross-Transformer forChinese Named Entity Recognition论文解析相关推荐

  1. TENER: Adapting Transformer Encoder for Named Entity Recognition 论文详解

    论文地址 https://arxiv.org/pdf/1911.04474.pdf 算法介绍 NER 是一个根据输入的句子,预测出其标注序列(实体的序列)的过程 对于模型来说,一般来说有这么几个组成部 ...

  2. TENER: Adapting Transformer Encoder for Named Entity Recognition 笔记

    TENER: Adapting Transformer Encoder for Named Entity Recognition Abstract(摘要) 1 Introduction(介绍) 2 R ...

  3. Contextual Transformer Networks for Visual Recognition论文以及代码解析

    Contextual Transformer Networks for Visual Recognition 1. Abstract 2. Introduction 3. Approach 3.1. ...

  4. A Transformer-based System for English Named Entity Recognition 基于Transformer的英语命名实体识别系统

    (1)  目的和背景 ① 研究任务: 复杂的复合命名实体可能是复杂的名词短语.动名词.不定式.甚至是完整的句子.这种歧义使很难根据他们的上下文认识它们.为了解决复杂命名实体识别,提出了一个基于 Tra ...

  5. TENER: Adapting Transformer Encoder for Named Entity Recognition

    Transformer编码器用于命名实体识别.         用于ner识别的最常见深度学习模型应该就是bilstm了:但是在transformer大热的现在当然也少不了ner这个任务场景.本文就是 ...

  6. 【深度学习】网络架构设计:CNN based和Transformer based

    从DETR到ViT等工作都验证了Transformer在计算机视觉领域的潜力,那么很自然的就需要考虑一个新的问题,图像的特征提取,究竟是CNN好还是Transformer好? 其中CNN的优势在于参数 ...

  7. 学习Knowledge Graph Embedding Based Question Answering代码笔记

    前言 最近被导师安排学习一下[Knowledge Graph Embedding Based Question Answering] 这篇paper,这篇paper的重点在于运用了Knowledge ...

  8. 【PaperReading】Knowledge Graph Embedding Based Question Answering

    Knowledge Graph Embedding Based Question Answering 摘要 关键词 引言 问题陈述 基于QA-KG的知识嵌入 知识图嵌入 谓词和头部实体学习模型, 基于 ...

  9. 深度学习论文: TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head 及其PyTorch实现

    深度学习论文: TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Dro ...

最新文章

  1. HIVE入门_3_数据导入导出
  2. Android之四大组件(Service的开启与关闭)
  3. 把一个项目放到GItHub上
  4. 回归素材(part9)--PYTHON机器学习手册-从数据预处理到深度学习
  5. am335x修改sd卡cd管脚
  6. java数组 js数组的长度_js中split()方法得到的数组长度问题
  7. 假如有一门叫做 Ctrump 的编程语言...
  8. Kubernetes 1.5安装
  9. Android系统自带AEC/AGC/NC的demo
  10. 【WordCloud】将周董的歌用词云可视化
  11. Linux定时器例子
  12. 如何把模糊照片变清晰把相片变高清修图#ps教程#ps学习视频
  13. ios键盘done中文_iOS键盘事件实现、控制
  14. opencv-python文字识别
  15. Sprite 3D用法和相关特性详解
  16. 实现语音对讲_校园IP广播对讲融合解决方案
  17. 老司机带你从源码开始撸Spring生命周期!!!
  18. 阿里实习生招聘笔试题目
  19. Linux查看磁盘空间的命令
  20. hash,hashcode,hashmap以及bucket怎么理解

热门文章

  1. Dota2APP--第一天
  2. 如何在VirtualJudge建比赛
  3. 三人决斗_使用深度q决斗学习为厄运建立进攻性AI代理
  4. 极客与艺术:赢取 310 BTC 的正确解密方式
  5. 用matlab做判别分析法,判别分析的matlab实现
  6. 【DB笔试面试682】在Oracle中,Undo段中区3种状态分别是什么(Undo表空间系列)?...
  7. 放弃追求“平衡”后,《风暴岛》在类狼人杀领域走出了一条怎样的路?
  8. 什么是无服务器架构Serverless?有哪些优势?
  9. 如何用简单例子讲解 Q - learning 的具体过程?
  10. 戴尔r320服务器系统,戴尔R320服务器的定位、特性及配置