MarkBERT: Marking Word Boundaries Improves Chinese BERT

作者觉得现有的基于words作为一个unit的方式,对于OOV和中文并不十分适用。
提出的markbert,是在以词组为切割的基础上,还加入了marker标记。

预训练任务包括两种:

The first task is masked language modeling and we
also mask markers such that word boundary knowledge can
be learned since the pre-trained model needs to recognize
the word boundaries within the context. The second task is
replaced word detection. We replace a word with artificially
generated words and ask the markers behind the word to predict whether the word is replace

在replace word detection中,混淆词的构造可以是多种多样的。我们采取了两种简单的策略:(1)我们使用同义词作为混淆;(2)我们使用中文中语音(拼音)相似的词。为了获得同义词,我们使用Zhang和Yang(2018)提供的外部词汇嵌入。我们计算单词之间的余弦相似度,并使用最相似的单词作为同义词混淆。为了获得基于语音的混淆,如图2所示,我们使用一个外部工具来获得单词的语音,并选择一个与之混淆的单词共享相同的语音。

模型结构

作者觉得,这种预训练方式更有助于中文NER中的marker标记下的识别。我不觉得特备好。而且论文的实验上,做的并不是很充分。

QIUXP-预训练语言模型:BertMarker:MarkBERT: Marking Word Boundaries Improves Chinese BERT相关推荐

  1. 预训练语言模型复现-2 whole word mask

    看文章标题,mask可以定位到mask language model,代表模型是bert一系列的成果. mask可以分为token mask和whole Word mask,怎么实现? 两者的区别是什 ...

  2. NLP判断语言情绪_网易严选nlp预训练语言模型的应用

    随着2018年底bert的发布,预训练(pre-train)成为nlp领域最为热门的方向之一,大规模的无监督语料加上少量有标注的语料成为了nlp模型的标配.本文将介绍几种常见的语言模型的基本原理和使用 ...

  3. 预训练语言模型(三):RNN和LSTM

    目录 RNN LSTM 参考一个很全的总结: 预训练语言模型的前世今生 - 从Word Embedding到BERT RNN部分参考了这个: 循环神经网络 LSTM部分参考了这两个: LSTM以及三重 ...

  4. 预训练语言模型(四):ELMo模型

    目录 ELMo模型 模型结构 公式 参考一个很全的总结: 预训练语言模型的前世今生 - 从Word Embedding到BERT ELMo也参考了这个: [NLP-13]ELMo模型(Embeddin ...

  5. 预训练语言模型在网易严选的应用

    导读:随着Bert的发布,预训练 ( pre-train ) 成为NLP领域最为热门的方向之一,大规模的无监督语料加上少量有标注的语料成为了NLP模型的标配.本文将介绍几种常见的语言模型的基本原理和使 ...

  6. 赠书 | 一文了解预训练语言模型

    来源 | 博文视点 头图 | 下载于视觉中国 近年来,在深度学习和大数据的支撑下,自然语言处理技术迅猛发展.而预训练语言模型把自然语言处理带入了一个新的阶段,也得到了工业界的广泛关注. 通过大数据预训 ...

  7. ACL 2022丨香港大学华为诺亚方舟新工作:生成式预训练语言模型的量化压缩

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 近日,香港大学与华为诺亚方舟实验室在 ACL 2022 上联合发表了 ...

  8. retinanet50预训练权重_论文导读|基于注意力机制对齐增强预训练语言模型

    李彦增 这篇文章通过提出了一种注意力机制对齐的方法,为预训练语言模型在 fine-tuning阶段引入了多源分词信息外部知识,从而提升了预训练语言模型在各个子任务上的效果.本文收录于 2020 年 A ...

  9. 西湖大学蓝振忠:预训练语言模型的前沿发展趋势

    蓝振忠,西湖大学助理教授 报告 | 蓝振忠 撰文 | 沈磊贤 我的报告主题为<预训练语言模型的前沿发展趋势>,主要从以下三个方面展开: ‍1.为什么全网络预训练模型如此重要? 2.为什么语 ...

最新文章

  1. 大型软件公司.Net面试题(一)
  2. H3C设备之RIP v2认证
  3. linux使用grep获取两个文件相同的行或不同的行
  4. Python easyGUI 文件浏览 显示文件内容
  5. C与C++ 无参函数的区别
  6. 线性代数:第五章 相似矩阵及二次型(1)向量的内积 方阵的特征值与特征向量 相似矩阵
  7. servletConfig对象
  8. SAP 销售订单删除及如何查已删除的单
  9. 企业级内网的域控环境搭建教程
  10. PWA进阶:Service Worker一问一答
  11. 在C#中使用自定义消息
  12. startallback怎么用_startallback使用教程
  13. nupkg 本地安装_关于Visual Studio:如何在本地安装NuGet包.nupkg文件?
  14. 专家称米粒倒闭是个案 不必大惊小怪
  15. r语言爬虫数据html表格,如何用R语言爬取网页表格数据节省一天工作时间
  16. “易+”开源 | 简单可信赖,GameSentry 正式开源
  17. Nexus 搭建docker本地仓库(hosted)和私有仓库(proxy)
  18. 合泰单片机触摸例程_合泰触摸单片机新建工程步骤(自编详细版)
  19. 175型柴油机缸体机械加工工艺及其组合机床钻孔夹具设计(论文 CAD图纸 开题报告 任务书 文献翻译……)
  20. mysql zfs快照_Solaris ZFS 快照和克隆使用指南

热门文章

  1. 武汉学院计算机专业分流,数学与计算机学院大类培养专业分流实施细则.doc
  2. Linux环境下Kafka的安装与使用(SpringBoot整合云服务器上的Kafka)
  3. 95%的区块链从业者将离开,80%的矿场将倒闭,行业大寒来临
  4. iPhone/iOS获得基站信息
  5. 【STM32F407】Note_01 STM32 编程环境搭建 -- Keil与VS code组合
  6. 虚拟相机 Cinemachine Virtual Camera
  7. Vue.prototype的使用
  8. 《6G概念及愿景白皮书》来啦!
  9. iOS大型项目解耦方案有难度?BeeHive设计优化来帮助
  10. 机智过人人声机器人_机智过人20171215视频,矣晓沅,九歌作诗机器人,清华大学