【深度学习】BERT变体—BERT-wwm
1.BERT-wwm
1-1 Whole Word Masking
Whole Word Masking (wwm)是谷歌在2019年5月31日发布的一项BERT的升级版本,主要更改了原预训练阶段的训练样本生成策略。
原有基于WordPiece的分词方式会把一个完整的词切分成若干个子词,在生成训练样本时,这些被分开的子词会随机被mask。 在Whole Word Masking (wwm)中,如果一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask。这缓解了在训练前 BERT 中屏蔽部分 Wordpiece 分词的缺点。
2.Chinese-BERT-wwm
2-1 中文BERT-WWM
2019年哈工大和科大讯飞联合发表中文BERT-WWM模型的论文,使用中文文本对整个单词进行掩蔽,即屏蔽整个单词而不是屏蔽汉字。由于谷歌官方发布的BERT中,中文以字粒度进行切分,没有考虑到传统NLP中的中文分词。 Chinese-BERT-wwm将 Whole Word Mask的方法应用在了中文中,使用了中文维基百科(包括简体和繁体)进行训练,并且使用了哈工大LTP作为分词工具,即对组成同一个词的汉字全部进行Mask。
2-2 样例
3.总结
BERT-WWM对Bert的改进主要体现在mask的方式上,使用全词mask。
其改进点如下:BERT-WWM不仅仅是连续mask实体词和短语,而是连续mask所有能组成中文词语的字。具体做法是,针对中文,如果一个完整的词的部分字被mask,则同属该词的其他部分也会被mask,即对组成同一个词的汉字全部进行Mask,即为全词Mask。
这样做的目的是:预训练过程中,模型能够学习到词的语义信息,训练完成后字的embedding就具有了词的语义信息了,这对各类中文NLP任务都是友好的。
【深度学习】BERT变体—BERT-wwm相关推荐
- 深度学习 一 :使用BERT做 NLP分类任务
文章目录 前言 什么是BERT? 它与其他机器学习算法的不同之处 代码示例 开始设置 准备数据 训练模型 做一个预测 鸣谢!!!! 前言 ****Bert的原理资料已经很多这里不多陈述,仅仅用一个实际 ...
- 深度学习(二)BERT模型及其一系列衍生模型
文章目录 声明 一.BERT 概述 1. BERT 是什么? 2. 传统方法 VS 预训练方法 3. BERT 的输入 ① 5 种特殊的 token 4. 核心结构 1. Multi-Head 2. ...
- 深度学习基础 | NLP大魔王 · BERT
作者 | Chilia 整理 | NewBeeNLP 首先,请阅读先修知识: 深度学习基础 | 从Language Model到RNN 深度学习基础 | RNN家族全面解析 深度学习基础 | Se ...
- 深度学习之 自然语言处理BERT
Natural Language Processing(NLP)包括自然语言理解和自然语言生成,自然语言理解的应用包括语义分析.机器客服.语音识别.机器翻译等. transformer这一深度网络架构 ...
- [深度学习-NPL]ELMO、BERT、GPT学习与总结
系列文章目录 深度学习NLP(一)之Attention Model; 深度学习NLP(二)之Self-attention, Muti-attention和Transformer; 深度学习NLP(三) ...
- 高效的深度学习:将深度学习模型变得更小、更快、更好的综述
©PaperWeekly 原创 · 作者 | 王馨月 学校 | 四川大学本科生 研究方向 | 自然语言处理 摘要 深度学习彻底改变了计算机视觉.自然语言理解.语音识别.信息检索等领域.然而,随着深度学 ...
- 10.23 开一个专栏,金融人工智能,设计深度学习,智能体交易,平台api接口等学习内容
大纲 1.sklearn,tensorflow,keras,各种机器学习模型,深度学习DNN模型,RNN,强化学习等 2.智能体依赖的向量化回测模块,包括env环境模块,类似于gym,回测 3.oan ...
- 18 岁清华毕业,95后博士生杨幻睿将深度学习 “单核” 变“多核”,显著提高 “对抗性攻击” 防御力-1
9 月 26 日,杜克大学陈怡然教授在微博秀出了组里博士生的成绩--杨幻睿同学的论文被 NeurIPS 评为最优的 Oral 级别,并不忘强调"还是家里领导最牛",狠狠向粉丝撒了一 ...
- BERT的优秀变体:ALBERT论文图解介绍
2020-06-15 09:22:09 作者:amitness 编译:ronghuaiyang 正文共: 3116 字 21 图 预计阅读时间: 9 分钟 导读 ALBERT作为BERT的一个变体,在 ...
最新文章
- Linux的watch命令--实时监测命令的运行结果
- linux shell 脚本练习,shell脚本小练习
- 全球与中国Z型斗式提升机市场运营战略分析及未来趋势创新建议报告2022-2027年版
- 使用JavaParser从源文件中提取JavaDoc文档
- freemarker html 乱码,Freemarker生成静态html文件及中文乱码的问题.pdf
- java servlet spring_spring与tomcat 对应关系,servlet各版本写法
- python function terminated un_绕过 RestrictedUnpickler
- 循环下标_【转】【Python效率】五种Pandas循环方法效率对比
- origin数据平滑_origin怎样平滑曲线 看完你就会了
- Android模拟手机QQ登录界面和主界面(含源码)
- java自行车(java自行车)
- C3P0,alibaba连接池错误【已解决】-An exception occurred while acquiring a poolable resource. Will retry.
- win python虚拟环境安装
- 【C语言】初识指针(终篇)
- TSOJ 好好做题(屑)——递推状态压缩+高精度
- 财务学python可以做什么-财务方面的学生如何学习python?
- mysqladmin命令简介
- Radis缓存异常以及处理方案(雪崩击穿穿透预热降级)
- 灵隐寺招聘员工:没有KPI,佛系上班,四点半下班……
- 单指标时间序列异常检测——基于重构概率的变分自编码(VAE)代码实现(详细解释)