1.BERT-wwm

1-1 Whole Word Masking

        Whole Word Masking (wwm)是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略。

原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词,在生成训练样本时,这些被分开的子词会随机被mask。 在Whole Word Masking (wwm)中,如果一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask。这缓解了在训练前 BERT 中屏蔽部分 Wordpiece 分词的缺点。

2.Chinese-BERT-wwm

2-1 中文BERT-WWM

2019年哈工大和科大讯飞联合发表中文BERT-WWM模型的论文,使用中文文本对整个单词进行掩蔽,即屏蔽整个单词而不是屏蔽汉字。由于谷歌官方发布的BERT中,中文以字粒度进行切分,没有考虑到传统NLP中的中文分词。 Chinese-BERT-wwm将 Whole Word Mask的方法应用在了中文中,使用了中文维基百科(包括简体和繁体)进行训练,并且使用了哈工大LTP作为分词工具,即对组成同一个的汉字全部进行Mask。

2-2 样例

3.总结

BERT-WWM对Bert的改进主要体现在mask的方式上,使用全词mask。

其改进点如下:BERT-WWM不仅仅是连续mask实体词和短语,而是连续mask所有能组成中文词语的字。具体做法是,针对中文,如果一个完整的词的部分字被mask,则同属该词的其他部分也会被mask,即对组成同一个词的汉字全部进行Mask,即为全词Mask。

这样做的目的是:预训练过程中,模型能够学习到词的语义信息,训练完成后字的embedding就具有了词的语义信息了,这对各类中文NLP任务都是友好的。

【深度学习】BERT变体—BERT-wwm相关推荐

  1. 深度学习 一 :使用BERT做 NLP分类任务

    文章目录 前言 什么是BERT? 它与其他机器学习算法的不同之处 代码示例 开始设置 准备数据 训练模型 做一个预测 鸣谢!!!! 前言 ****Bert的原理资料已经很多这里不多陈述,仅仅用一个实际 ...

  2. 深度学习(二)BERT模型及其一系列衍生模型

    文章目录 声明 一.BERT 概述 1. BERT 是什么? 2. 传统方法 VS 预训练方法 3. BERT 的输入 ① 5 种特殊的 token 4. 核心结构 1. Multi-Head 2. ...

  3. 深度学习基础 | NLP大魔王 · BERT

    ‍作者 | Chilia 整理 | NewBeeNLP‍ 首先,请阅读先修知识: 深度学习基础 | 从Language Model到RNN 深度学习基础 | RNN家族全面解析 深度学习基础 | Se ...

  4. 深度学习之 自然语言处理BERT

    Natural Language Processing(NLP)包括自然语言理解和自然语言生成,自然语言理解的应用包括语义分析.机器客服.语音识别.机器翻译等. transformer这一深度网络架构 ...

  5. [深度学习-NPL]ELMO、BERT、GPT学习与总结

    系列文章目录 深度学习NLP(一)之Attention Model; 深度学习NLP(二)之Self-attention, Muti-attention和Transformer; 深度学习NLP(三) ...

  6. 高效的深度学习:将深度学习模型变得更小、更快、更好的综述

    ©PaperWeekly 原创 · 作者 | 王馨月 学校 | 四川大学本科生 研究方向 | 自然语言处理 摘要 深度学习彻底改变了计算机视觉.自然语言理解.语音识别.信息检索等领域.然而,随着深度学 ...

  7. 10.23 开一个专栏,金融人工智能,设计深度学习,智能体交易,平台api接口等学习内容

    大纲 1.sklearn,tensorflow,keras,各种机器学习模型,深度学习DNN模型,RNN,强化学习等 2.智能体依赖的向量化回测模块,包括env环境模块,类似于gym,回测 3.oan ...

  8. 18 岁清华毕业,95后博士生杨幻睿将深度学习 “单核” 变“多核”,显著提高 “对抗性攻击” 防御力-1

    9 月 26 日,杜克大学陈怡然教授在微博秀出了组里博士生的成绩--杨幻睿同学的论文被 NeurIPS 评为最优的 Oral 级别,并不忘强调"还是家里领导最牛",狠狠向粉丝撒了一 ...

  9. BERT的优秀变体:ALBERT论文图解介绍

    2020-06-15 09:22:09 作者:amitness 编译:ronghuaiyang 正文共: 3116 字 21 图 预计阅读时间: 9 分钟 导读 ALBERT作为BERT的一个变体,在 ...

最新文章

  1. Linux的watch命令--实时监测命令的运行结果
  2. linux shell 脚本练习,shell脚本小练习
  3. 全球与中国Z型斗式提升机市场运营战略分析及未来趋势创新建议报告2022-2027年版
  4. 使用JavaParser从源文件中提取JavaDoc文档
  5. freemarker html 乱码,Freemarker生成静态html文件及中文乱码的问题.pdf
  6. java servlet spring_spring与tomcat 对应关系,servlet各版本写法
  7. python function terminated un_绕过 RestrictedUnpickler
  8. 循环下标_【转】【Python效率】五种Pandas循环方法效率对比
  9. origin数据平滑_origin怎样平滑曲线 看完你就会了
  10. Android模拟手机QQ登录界面和主界面(含源码)
  11. java自行车(java自行车)
  12. C3P0,alibaba连接池错误【已解决】-An exception occurred while acquiring a poolable resource. Will retry.
  13. win python虚拟环境安装
  14. 【C语言】初识指针(终篇)
  15. TSOJ 好好做题(屑)——递推状态压缩+高精度
  16. 财务学python可以做什么-财务方面的学生如何学习python?
  17. mysqladmin命令简介
  18. Radis缓存异常以及处理方案(雪崩击穿穿透预热降级)
  19. 灵隐寺招聘员工:没有KPI,佛系上班,四点半下班……
  20. 单指标时间序列异常检测——基于重构概率的变分自编码(VAE)代码实现(详细解释)

热门文章

  1. 二维动态数组空间分配 c语言,科学网—C语言中动态二维数组的使用和分配 - 王一哲的博文...
  2. 网页聊天框发送表情图片实现方法
  3. 怎样破坏程序的堆栈?
  4. 阿里巴巴字体图标的使用
  5. CF1619B Squares and Cubes
  6. ubuntu chmod 和 chown 命令用法
  7. 组播IGMP-原理介绍+报文分析+配置示例
  8. wipe、root、底包、rsd是什么意思?小白入门释义
  9. 教您正确理解时钟器件的抖动性能
  10. Word字体的字号与像素对应关系