MECT: Multi-Metadata Embedding based Cross-Transformer forChinese Named Entity Recognition论文解析
《MECT: Multi-Metadata Embedding based Cross-Transformer forChinese Named Entity Recognition》的论文解析
纯属个人理解,欢迎批评指正
如果有时间的话,会有源码解析,欢迎关注一波
首先,本文的作者信息
个人理解
首先从我个人阅读这篇文章的感觉来看,作者的想法确实挺棒的,在FLAT BERT的基础上通过卷积神经网络提取汉字的笔画embedding ,然后通过一个交叉的transform 和 random attention 的方法将笔画、字符和单词信息融入到模型中。在最后对label 做预测的时候,将cross transformer 笔画一侧的token mask。
关于FLAT 预计这两天会写文章介绍一下,想了解的同学可以看一下我之后写的解读。
这里的motivation 在于 作者认为,在汉语里面,笔画,尤其是偏旁部首是可以引入一部分信息的,例如,草字头的多与植物有关,月字旁的多与身体部位有关。
因此,作者想在词汇的基础上引入笔画 信息。
模型部分
笔画embedding
作者的笔画embedding 个人理解采用的是首先把字里面的笔画提取出来,然后将笔画建立一个随机的embeddding lookup 表,也可能是one-hot 形式,然后利用CNN 将其卷成一个一维的embedding ,维度大小应该与token 的embedding 大小一致
有趣的是,作者通过余弦相似度 证明了这种提取embedding 的方法是有效的。
之后采用 cross 的方式将 字符、单词和笔画信息链接起来,其模型架构如下图所示:
左边为 FLAT模型,右边为笔画的transformer
之所以称为cross,是因为双方做attention 的Q 是来自对方的。
详细的模型信息可以看下图
左边的FLAT 可以看我的另一篇关于FLAT的解析
这里详细说一下右边,右边的embedding 就是由CNN得到的笔画embedding。
其QKV 通过下列公式计算得到:
这里值得注意的是,作者采用的Random attention.
同时作者也做了速度和效率的对比
在实验效果方面,这里就不过多介绍了
MECT: Multi-Metadata Embedding based Cross-Transformer forChinese Named Entity Recognition论文解析相关推荐
- TENER: Adapting Transformer Encoder for Named Entity Recognition 论文详解
论文地址 https://arxiv.org/pdf/1911.04474.pdf 算法介绍 NER 是一个根据输入的句子,预测出其标注序列(实体的序列)的过程 对于模型来说,一般来说有这么几个组成部 ...
- TENER: Adapting Transformer Encoder for Named Entity Recognition 笔记
TENER: Adapting Transformer Encoder for Named Entity Recognition Abstract(摘要) 1 Introduction(介绍) 2 R ...
- Contextual Transformer Networks for Visual Recognition论文以及代码解析
Contextual Transformer Networks for Visual Recognition 1. Abstract 2. Introduction 3. Approach 3.1. ...
- A Transformer-based System for English Named Entity Recognition 基于Transformer的英语命名实体识别系统
(1) 目的和背景 ① 研究任务: 复杂的复合命名实体可能是复杂的名词短语.动名词.不定式.甚至是完整的句子.这种歧义使很难根据他们的上下文认识它们.为了解决复杂命名实体识别,提出了一个基于 Tra ...
- TENER: Adapting Transformer Encoder for Named Entity Recognition
Transformer编码器用于命名实体识别. 用于ner识别的最常见深度学习模型应该就是bilstm了:但是在transformer大热的现在当然也少不了ner这个任务场景.本文就是 ...
- 【深度学习】网络架构设计:CNN based和Transformer based
从DETR到ViT等工作都验证了Transformer在计算机视觉领域的潜力,那么很自然的就需要考虑一个新的问题,图像的特征提取,究竟是CNN好还是Transformer好? 其中CNN的优势在于参数 ...
- 学习Knowledge Graph Embedding Based Question Answering代码笔记
前言 最近被导师安排学习一下[Knowledge Graph Embedding Based Question Answering] 这篇paper,这篇paper的重点在于运用了Knowledge ...
- 【PaperReading】Knowledge Graph Embedding Based Question Answering
Knowledge Graph Embedding Based Question Answering 摘要 关键词 引言 问题陈述 基于QA-KG的知识嵌入 知识图嵌入 谓词和头部实体学习模型, 基于 ...
- 深度学习论文: TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head 及其PyTorch实现
深度学习论文: TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Dro ...
最新文章
- HIVE入门_3_数据导入导出
- Android之四大组件(Service的开启与关闭)
- 把一个项目放到GItHub上
- 回归素材(part9)--PYTHON机器学习手册-从数据预处理到深度学习
- am335x修改sd卡cd管脚
- java数组 js数组的长度_js中split()方法得到的数组长度问题
- 假如有一门叫做 Ctrump 的编程语言...
- Kubernetes 1.5安装
- Android系统自带AEC/AGC/NC的demo
- 【WordCloud】将周董的歌用词云可视化
- Linux定时器例子
- 如何把模糊照片变清晰把相片变高清修图#ps教程#ps学习视频
- ios键盘done中文_iOS键盘事件实现、控制
- opencv-python文字识别
- Sprite 3D用法和相关特性详解
- 实现语音对讲_校园IP广播对讲融合解决方案
- 老司机带你从源码开始撸Spring生命周期!!!
- 阿里实习生招聘笔试题目
- Linux查看磁盘空间的命令
- hash,hashcode,hashmap以及bucket怎么理解
热门文章
- Dota2APP--第一天
- 如何在VirtualJudge建比赛
- 三人决斗_使用深度q决斗学习为厄运建立进攻性AI代理
- 极客与艺术:赢取 310 BTC 的正确解密方式
- 用matlab做判别分析法,判别分析的matlab实现
- 【DB笔试面试682】在Oracle中,Undo段中区3种状态分别是什么(Undo表空间系列)?...
- 放弃追求“平衡”后,《风暴岛》在类狼人杀领域走出了一条怎样的路?
- 什么是无服务器架构Serverless?有哪些优势?
- 如何用简单例子讲解 Q - learning 的具体过程?
- 戴尔r320服务器系统,戴尔R320服务器的定位、特性及配置