提出了一种用于中文序列标注的词库增强型BERT,通过Lexicon Adapter layer 将外部词库知识融入到BERT层中

汉语序列标注中在不同层次中融合词汇特征和BERT的比较。为了简单起见,在BERT中只显示了两个转换层,并将句子截断为三个字符。ci表示第i个中文character,wj表示第j个中文word

将词汇整合到了底层,在BERT的transformer层之间集成lexicon信息,通过将一个汉语句子与一个现有词汇进行匹配,将其转换为一个字符-单词对序列。词典适配器用于动态提取最相关的匹配项,每个字符的单词使用字符到单词的双线性注意机制,词典适配器应用于BERT中相邻transformer之间,词典特征和BERT表示通过BERT中的多层编码器充分交互

证实了底层特征集成有助于跨度边界检测和跨度类型确定。

BERT Adapter旨在学习下游任务的任务特定参数。在预先训练好的模型层之间添加适配器,只为特定任务来调整添加的适配器中的参数。

We apply the Lexicon Adapter between the 1-st and 2-nd Transformer in BERT and fine-tune both BERT and pre-trained word embedding during training.

两个主要区别:

  1. LEBERT同时具有character特征和lexicon特征作为给定的输入,汉语句子被转换为一个character-words对序列

  2. transformer之间连接有一个lexicon adapter,将lexicon knowledge整合到Bert中

1. Char-Words Pair Sequence

we first build a Trie based on the D(a Chinese Lexicon D),

2. Lexicon Adapter

对于第i个位置的 char-words 对序列,输入表示为

h(i,c)表示的是character向量,由当前transformer输出,x(i,ws)表示的是word embedding

对于第j个word,从预训练word word embedding 查找表计算

为了对齐两种不同的表示,将查找到的x(ij,w),进行下面的维度计算

为了从所有匹配的单词中找出最相关的单词,引入了character-to-word的注意机制

对于第i个character,其word组合为Vi,和h(i,c),W矩阵计算全局ai,再对于第j个word, a(i,j)*v(ij,w),求和计算后的到z(i,w)

最后得到lexicon的权重信息

3. Lexicon Enhanced BERT

如何 inject lexcion信息在第k层 和 第(k+1)层 Transformer

适配器输入一个character向量和成对的word feature。通过对字符和单词的双线性attention,将lexcion特征加权为一个向量,然后将该向量添加到character向量,然后进行layer normalization.

4. training

http://www.taodudu.cc/news/show-2408492.html

相关文章:

  • Cluster-level pseudo-labelling forsource-free cross-domain facial expressionrecognition
  • ubuntu16.04中运行orb-slam2_with_semantic_labelling-master
  • In-Place Scene Labelling and Understanding with Implicit Scene Representation
  • Pseudo Labelling
  • 伪标签(Pseudo-Labelling)
  • 硬核!自动驾驶如何做数据标注?特斯拉EP3 Auto Labeling深度分析
  • 伪标签(Pseudo-Labelling)介绍:一种半监督机器学习技术
  • indexof 的基本用法
  • C# IndexOf用法
  • nameof的用法
  • String.indexOf 用法
  • for of 的基本用法
  • js中indexOf的用法
  • 介词for和with 和of的用法_to for of with的用法区别
  • TypeScript keyof 用法
  • Stream.of()用法示例
  • indexOf()用法
  • 枚举中valueOf用法
  • std::result_of用法
  • 枚举类中的valueOf用法
  • size of的用法总结
  • steer clear of用法
  • js indexOf()用法
  • C#nameof用法
  • indexOf的用法
  • result_of 用法
  • container_of的用法
  • indexOf用法
  • indexOf用法小结
  • indexOf 用法总结

LEBERT:Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter相关推荐

  1. LEBERT:基于词汇增强的中文NER模型

    01 任务概述 命名实体识别(简称NER)是NLP中的经典任务,即给定一个输入文本,让模型识别出文本中的实体信息. 在中文NER任务中,可以分为 Character-based (字符粒度) 和 Wo ...

  2. 中文NER1 之 simplify the usage of Lexicon in Chinese NER

    中文NER1 之 simplify the usage of Lexicon in Chinese NER ACL-simplify the usage of Lexicon in Chinese N ...

  3. GDCM:获取dicom文件Sequence的长度的测试程序

    GDCM:获取dicom文件Sequence的长度的测试程序 GDCM:获取dicom文件Sequence的长度的测试程序 GDCM:获取dicom文件Sequence的长度的测试程序 #includ ...

  4. Newtonsoft.Json反序列化(Deserialize)出错:Bad JSON escape sequence

    使用Newtonsoft.Json反序列化收到的字串为JObject或其它支持的数据模型,有时错误,提示如下: Bad JSON escape sequence: \c. Path 'idno', l ...

  5. 影接不暇:IMAX Enhanced上线爱奇艺

    10月27日,以"影接不暇"为主题的IMAX Enhanced上线爱奇艺项目分享会暨新片体验会在北京举行.这场"视听盛宴"由IMAX中国.音频科技行业领导者 X ...

  6. 文献阅读:RoFormer: Enhanced Transformer with Rotary Position Embedding

    文献阅读:RoFormer: Enhanced Transformer with Rotary Position Embedding 1. 工作简介 2. 常见位置编码方式 1. 绝对位置编码 1. ...

  7. 《预训练周刊》第40期: 量子预训练、千层BERT与GPT

    No.40 智源社区 预训练组 预 训 练 研究 观点 资源 活动 周刊订阅 告诉大家一个好消息,<预训练周刊>已经开启"订阅功能",以后我们会向您自动推送最新版的&l ...

  8. 《预训练周刊》第5期:智源等研究力证:GPT语言理解能力不输BERT、盘点NLP预训练「兵器谱」...

    No.05 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第5期< ...

  9. BERT通俗笔记:从Word2Vec/Transformer逐步理解到BERT

    前言 我在写上一篇博客<22下半年>时,有读者在文章下面评论道:"july大神,请问BERT的通俗理解还做吗?",我当时给他发了张俊林老师的BERT文章,所以没太在意. ...

  10. 自然语言处理NLP星空智能对话机器人系列:深入理解Transformer自然语言处理 基于BERT模型微调实现句子分类

    自然语言处理NLP星空智能对话机器人系列:深入理解Transformer自然语言处理 基于BERT模型微调实现句子分类 目录 基于BERT模型微调实现句子分类案例实战 Installing the H ...

最新文章

  1. 如何有效利用项目管理工具提高工作效率?
  2. mysql 报错10614_golang使用go-sql-driver实现mysql增删改操作-Go语言中文社区
  3. [原创]安装Ubuntu Server 14.04后
  4. android图片压缩上传系列-基础篇
  5. 在Win7系统下, 使用VS2015 打开带有日文注释程序出现乱码的解决方案
  6. python黑帽子第二章实验截图
  7. BURP安装Turbo Intruder插件报错问题
  8. 京东支付首席架构师“泄密”京东支付系统架构
  9. 用Python对全国火车站数量进行分析,发现东北三省竟然占了2成!
  10. 北斗终端与计算机传输信息,基于北斗信息的手机终端的应用研究
  11. 使用Euclid算法求最大公约数
  12. 3G UMTS与4G LTE核心网(二):4G网络概述
  13. 三十六计珍藏版(上)
  14. 电脑远程控制,自动重启,断电重启,网络自动连接
  15. 多模态自编码器从EEG信号预测fNIRS静息态
  16. 计算几何基础(持续更新)
  17. 计算机科学 hafu,不输加州!美国这个州的名校远比你想象的多!
  18. python数据处理pdf_Python数据处理pdf (中文版带书签)、原书代码、数据集
  19. 孔明锁三通步骤_13种孔明锁拆装
  20. 十大布局智慧城市生态的跨国巨头

热门文章

  1. 缓冲流、转换流、序列化流、装饰设计模式、comms-io工具包
  2. Moore-Penrose广义逆矩阵
  3. 怎么将视频转换成mp4?
  4. 1篇SCI二区+4篇一类可定A档博士!110万房补,享副教授甚至教授待遇!
  5. 83页XX市高速智慧公路总体建设方案
  6. 服务器linux搬家教程,搬迁linux服务器的流程
  7. 磁珠 符号_关于PCB原理图中的FB-FB是磁珠的符号-电子元器件-电路图
  8. mysql怎么把两个表格的数据合并成一行_mysql中将多行数据合并成一行数据
  9. 阿里 机器翻译 api
  10. podman加速器Harbor