读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)
第一遍
标题以及作者(2021 11.25)
摘要
- 本文基于BERT,在RoBERTa上进行一系列改进,提出了用于中文的预训练模型MacBERT。
- 提出了一种新的掩码策略,MLM as correction
结论
- 本文将MLM任务改为纠错任务,降低了预训练和微调之间的差异。
- 探索一种有效的方法来确定遮蔽比率。
1. 介绍
本文贡献点:
- 本文研发并公布了一系列中文预训练模型,用作比较模型性能。
- 本文提出了一种新的预训练模型MacBERT,通过掩盖词语的近义词任务,降低了预训练和微调之间的差异。
- 本文还研发了一系列小的模型RBT,有利于在现实生活中使用到它们
2. 相关工作
- BERT
- BERT主要的两个训练任务,MLM和NSP
- ERNIE(Enhanced Representation through kNowledge IntEgration)
- 通过优化掩盖过程(实体级别掩盖[命名实体]、短语级别掩盖[类似于N-gram掩盖策略])
- XLNet(为了避免BERT的MLM在训练和微调阶段的不一致问题)
- Permutation Language Model
- 将自编码修改为自回归
- RoBERT(Robustly Optimized BERT Pretraining Approach)
- 使用更大的batch、更长的序列
- 去除NSP任务
- ALBERT(A Lite BERT,主要为了降低BERT内存消耗和训练速度慢的问题)
- 将嵌入层矩阵分解为两个小矩阵
- 跨层参数共享,在不同层中参数共享
- 提出了SOP任务(sentence-order prediction)去替代NSP任务
- ELECTRA(Efficiently Learning an Encoder that Classifiers Token Replacements Accurately)
- 采用生成器-鉴别器的结构,类似于GAN
- 使用一个小的MLM去预测被掩盖住的词,使用一个鉴别器来分辨输入的token是否被生成器替换(Replaced Token Detection,RTD),二分类问题。
- 在微调阶段,舍弃生成器,仅用鉴别器进行微调。
第二遍
3. 中文预训练模型
- BERT-wwm & RoBERTa-wwm
- 中文没法使用子词分割,因此使用词级别的分割和CWS(Chinese Word Segmentation),本文使用LTP工具
- ELECTRA
- RBT Series
- 更小的BERT-like模型,例如:RBT3(3层RoBERTa-base)、RBT4、RBT6、RBTL3(3层RoBERTa-large)
4. MacBERT
模型结构
MLM as correction
- 本文采用wwm(N-gram)遮蔽策略, 从一个词到4个词对应的掩盖概率为40%-10%;未来还将尝试新的遮蔽策略PMI-masking
- 本文采用词的近义词(通过使用Synonyms工具)进行遮蔽,在极少数情况下,没有近义词时使用随机的词替换。
- 本文对输入15%的词进行遮蔽,对于遮蔽的词80%的概率被替换为近义词、10%的概率被替换为随机词、10%的概率保留为原始词。
Sentence Order Prediction(SOP)
- 正样本:由两个连续的文本组成;负样本:通过交换原始文本顺序得到
Neural Architecture
获取文本上下文表示
X=[CLS ]A1…An[SEP ]B1…Bm[SEP ]H(0)=Embedding(X)H(i)=Transformer (H(i−1)),i∈{1,…,L}\begin{gathered} X=[\text { CLS }] A_{1} \ldots A_{n}[\text { SEP }] B_{1} \ldots B_{m}[\text { SEP }] \\ \boldsymbol{H}^{(0)}=\operatorname{Embedding}(X) \\ \boldsymbol{H}^{(i)}=\text { Transformer }\left(\boldsymbol{H}^{(i-1)}\right), \quad i \in\{1, \ldots, L\} \end{gathered} X=[CLS]A1…An[SEP]B1…Bm[SEP]H(0)=Embedding(X)H(i)=Transformer(H(i−1)),i∈{1,…,L}MLM as correction任务损失定义
pi=HimWeT+bL=−1M∑i=1Myilogpi\boldsymbol{p}_i = \boldsymbol{H}_i^m\boldsymbol{W}^{e^T} + \boldsymbol{b} \\ \mathcal{L} = -\frac{1}{M}\sum_{i=1}^{M}\boldsymbol{y}_i\text{log}\boldsymbol{p}_i pi=HimWeT+bL=−M1i=1∑MyilogpiSOP输出定义,SOP损失也采用交叉熵损失函数
p=softmax(h0Ws+bs)\boldsymbol{p} = \bold{softmax}(\boldsymbol{h}_0\boldsymbol{W}^s+\boldsymbol{b}^s) p=softmax(h0Ws+bs)网络损失函数
L=Lmac+Lsop\mathcal{L} = \mathcal{L}_{mac} + \mathcal{L}_{sop} L=Lmac+Lsop
5. 实验
数据处理
- 本文中文维基百科(0.4B)和其他中文资源(5.6B)
- 分词采用LTP
训练过程
微调过程
6. 结果
Machine Reading Comprehension
Machine Reading Comprehension(MRC)是一种具有代表性的文档级建模任务,需要根据给定的文章回答问题。
Single Sentence Classification
Sentence Pair Classification
小模型上的结果
7. 讨论
消融实验
探究了不同的遮挡策略
Analyses on Chinese Spell Check
第三遍
小结:
- 本文使用一种新的MLM方法,将随机掩码替换为近义词,本文认为这里将一个自编码任务变成了一个纠错任务,可以更好地保留上下文信息,在中文数据集中表现很好。
- 本文公布了很多种中文预训练模型,并比较它们在不同任务上的效果,有利于其他人继续在中文预训练模型上进行开阔
读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)相关推荐
- 【文献阅读】Pre-Training With Whole Word Masking for Chinese BERT
Cui Y, Che W, Liu T, et al. Pre-training with whole word masking for chinese bert[J]. IEEE/ACM Trans ...
- 读论文《Efficient Estimation of Word Representations in Vector Space》
读论文<Efficient Estimation of Word Representations in Vector Space> 原文地址:http://blog.csdn.net/qq ...
- QIUXP-预训练语言模型:BertMarker:MarkBERT: Marking Word Boundaries Improves Chinese BERT
MarkBERT: Marking Word Boundaries Improves Chinese BERT 作者觉得现有的基于words作为一个unit的方式,对于OOV和中文并不十分适用. 提出 ...
- Whole Word Masking (wwm)
Whole Word Masking (wwm) 本文代码部分参考github项目: https://github.com/BSlience/search-engine-zerotohero/tree ...
- 科研狗citavi/mendeley+word使用技巧外加读论文瞎琢磨
word Shift + F5 打开文件后回到上次编辑位置 添加奇偶页不同页眉 页码从正文开始的设置步骤 选择布局-分隔符-分解符-下一页,在正文的上一页插入,插入后在正文第一行会出现一个空行,先保留 ...
- Re13:读论文 Gender and Racial Stereotype Detection in Legal Opinion Word Embeddings
诸神缄默不语-个人CSDN博文目录 论文名称:Gender and Racial Stereotype Detection in Legal Opinion Word Embeddings 论文ArX ...
- 读论文3:SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers
标题 读论文3:SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers 标题 Abstract:[读论文1](h ...
- Re23:读论文 How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence
诸神缄默不语-个人CSDN博文目录 论文名称:How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence ...
- 我用飞桨Parakeet合成小姐姐声音帮我“读”论文
点击左上方蓝字关注我们 [飞桨开发者说]顾茜,PPDE飞桨开发者技术专家,烟草行业开发工程师,毕业于厦门大学数学科学学院,研究方向为:人工智能在烟草行业的应用. 深度学习的论文读起来总是有点艰难,看不 ...
最新文章
- 闰年流程图(18网三袁昳)
- 频率分布直方图组距如何确定_吃透教材理解教参,《直方图》教学反思
- 数据结构(C语言实现)勘误
- JAVA_OA管理系统(三)番外篇:Myeclipse导入Spring源码包
- 宁波医院计算机试题及答案,(宁波市第25届小学生计算机程序设计竞赛试题及答案.doc...
- 为什么启动hbase shell后,创建按create 'test', 'cf'失败?
- java实现使用POI对word文档的页眉页脚的编辑
- python编程语言期中试题_MOOC Python编程的第六周测试,MOOCPython,语言,程序设计,测试题...
- Unity实现Text BestFit文本超框时再缩小字体
- Ubuntu安装Typora(md文件)
- 解决Office在修改安装路径后,提示“操作系统当前配置不能运行此程序”的问题
- 水题挑战3:NOIP 2017 宝藏
- STM32F767 Timer定时器与Usart串口综合实训
- Servlet生命周期总结
- Python一些可能用的到的函数系列11 本地哈希和服务器哈希比对
- Qt - MQTT客户端调试助手
- 5.CCS 配置头文件路径
- 使用远程桌面Remote desktop访问Azure虚拟机
- 区块链快速入门(三)——CFT(非拜占庭容错)共识算法
- JAVA 1.1
热门文章
- 【文献阅读】Pre-Training With Whole Word Masking for Chinese BERT