第一遍

标题以及作者(2021 11.25)

摘要

  1. 本文基于BERT,在RoBERTa上进行一系列改进,提出了用于中文的预训练模型MacBERT。
  2. 提出了一种新的掩码策略,MLM as correction

结论

  1. 本文将MLM任务改为纠错任务,降低了预训练和微调之间的差异。
  2. 探索一种有效的方法来确定遮蔽比率。

1. 介绍

本文贡献点:

  1. 本文研发并公布了一系列中文预训练模型,用作比较模型性能。
  2. 本文提出了一种新的预训练模型MacBERT,通过掩盖词语的近义词任务,降低了预训练和微调之间的差异。
  3. 本文还研发了一系列小的模型RBT,有利于在现实生活中使用到它们

2. 相关工作

  1. BERT

    1. BERT主要的两个训练任务,MLM和NSP
  2. ERNIE(Enhanced Representation through kNowledge IntEgration
    1. 通过优化掩盖过程(实体级别掩盖[命名实体]、短语级别掩盖[类似于N-gram掩盖策略])
  3. XLNet(为了避免BERT的MLM在训练和微调阶段的不一致问题)
    1. Permutation Language Model
    2. 将自编码修改为自回归
  4. RoBERT(Robustly Optimized BERT Pretraining Approach)
    1. 使用更大的batch、更长的序列
    2. 去除NSP任务
  5. ALBERT(A Lite BERT,主要为了降低BERT内存消耗和训练速度慢的问题)
    1. 将嵌入层矩阵分解为两个小矩阵
    2. 跨层参数共享,在不同层中参数共享
    3. 提出了SOP任务(sentence-order prediction)去替代NSP任务
  6. ELECTRA(Efficiently Learning an Encoder that Classifiers Token Replacements Accurately)
    1. 采用生成器-鉴别器的结构,类似于GAN
    2. 使用一个小的MLM去预测被掩盖住的词,使用一个鉴别器来分辨输入的token是否被生成器替换(Replaced Token Detection,RTD),二分类问题。
    3. 在微调阶段,舍弃生成器,仅用鉴别器进行微调。

第二遍

3. 中文预训练模型

  1. BERT-wwm & RoBERTa-wwm

    1. 中文没法使用子词分割,因此使用词级别的分割和CWS(Chinese Word Segmentation),本文使用LTP工具
  2. ELECTRA
  3. RBT Series
    1. 更小的BERT-like模型,例如:RBT3(3层RoBERTa-base)、RBT4、RBT6、RBTL3(3层RoBERTa-large)

4. MacBERT

  1. 模型结构

  2. MLM as correction

    1. 本文采用wwm(N-gram)遮蔽策略, 从一个词到4个词对应的掩盖概率为40%-10%;未来还将尝试新的遮蔽策略PMI-masking
    2. 本文采用词的近义词(通过使用Synonyms工具)进行遮蔽,在极少数情况下,没有近义词时使用随机的词替换。
    3. 本文对输入15%的词进行遮蔽,对于遮蔽的词80%的概率被替换为近义词、10%的概率被替换为随机词、10%的概率保留为原始词。
  3. Sentence Order Prediction(SOP)

    1. 正样本:由两个连续的文本组成;负样本:通过交换原始文本顺序得到
  4. Neural Architecture

    1. 获取文本上下文表示
      X=[CLS ]A1…An[SEP ]B1…Bm[SEP ]H(0)=Embedding⁡(X)H(i)=Transformer (H(i−1)),i∈{1,…,L}\begin{gathered} X=[\text { CLS }] A_{1} \ldots A_{n}[\text { SEP }] B_{1} \ldots B_{m}[\text { SEP }] \\ \boldsymbol{H}^{(0)}=\operatorname{Embedding}(X) \\ \boldsymbol{H}^{(i)}=\text { Transformer }\left(\boldsymbol{H}^{(i-1)}\right), \quad i \in\{1, \ldots, L\} \end{gathered} X=[CLS]A1An[SEP]B1Bm[SEP]H(0)=Embedding(X)H(i)=Transformer(H(i1)),i{1,,L}

    2. MLM as correction任务损失定义
      pi=HimWeT+bL=−1M∑i=1Myilogpi\boldsymbol{p}_i = \boldsymbol{H}_i^m\boldsymbol{W}^{e^T} + \boldsymbol{b} \\ \mathcal{L} = -\frac{1}{M}\sum_{i=1}^{M}\boldsymbol{y}_i\text{log}\boldsymbol{p}_i pi=HimWeT+bL=M1i=1Myilogpi

    3. SOP输出定义,SOP损失也采用交叉熵损失函数
      p=softmax(h0Ws+bs)\boldsymbol{p} = \bold{softmax}(\boldsymbol{h}_0\boldsymbol{W}^s+\boldsymbol{b}^s) p=softmax(h0Ws+bs)

    4. 网络损失函数
      L=Lmac+Lsop\mathcal{L} = \mathcal{L}_{mac} + \mathcal{L}_{sop} L=Lmac+Lsop

5. 实验

  1. 数据处理

    1. 本文中文维基百科(0.4B)和其他中文资源(5.6B)
    2. 分词采用LTP
  2. 训练过程

  3. 微调过程

6. 结果

  1. Machine Reading Comprehension

    Machine Reading Comprehension(MRC)是一种具有代表性的文档级建模任务,需要根据给定的文章回答问题。

  2. Single Sentence Classification

  3. Sentence Pair Classification

  4. 小模型上的结果

7. 讨论

  1. 消融实验

  2. 探究了不同的遮挡策略

  3. Analyses on Chinese Spell Check

第三遍

小结:

  1. 本文使用一种新的MLM方法,将随机掩码替换为近义词,本文认为这里将一个自编码任务变成了一个纠错任务,可以更好地保留上下文信息,在中文数据集中表现很好。
  2. 本文公布了很多种中文预训练模型,并比较它们在不同任务上的效果,有利于其他人继续在中文预训练模型上进行开阔

    读论文——Pre-Training with Whole Word Masking for Chinese BERT(2021 11.25)相关推荐

    1. 【文献阅读】Pre-Training With Whole Word Masking for Chinese BERT

      Cui Y, Che W, Liu T, et al. Pre-training with whole word masking for chinese bert[J]. IEEE/ACM Trans ...

    2. 读论文《Efficient Estimation of Word Representations in Vector Space》

      读论文<Efficient Estimation of Word Representations in Vector Space> 原文地址:http://blog.csdn.net/qq ...

    3. QIUXP-预训练语言模型:BertMarker:MarkBERT: Marking Word Boundaries Improves Chinese BERT

      MarkBERT: Marking Word Boundaries Improves Chinese BERT 作者觉得现有的基于words作为一个unit的方式,对于OOV和中文并不十分适用. 提出 ...

    4. Whole Word Masking (wwm)

      Whole Word Masking (wwm) 本文代码部分参考github项目: https://github.com/BSlience/search-engine-zerotohero/tree ...

    5. 科研狗citavi/mendeley+word使用技巧外加读论文瞎琢磨

      word Shift + F5 打开文件后回到上次编辑位置 添加奇偶页不同页眉 页码从正文开始的设置步骤 选择布局-分隔符-分解符-下一页,在正文的上一页插入,插入后在正文第一行会出现一个空行,先保留 ...

    6. Re13:读论文 Gender and Racial Stereotype Detection in Legal Opinion Word Embeddings

      诸神缄默不语-个人CSDN博文目录 论文名称:Gender and Racial Stereotype Detection in Legal Opinion Word Embeddings 论文ArX ...

    7. 读论文3:SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers

      标题 读论文3:SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers 标题 Abstract:[读论文1](h ...

    8. Re23:读论文 How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence

      诸神缄默不语-个人CSDN博文目录 论文名称:How Does NLP Benefit Legal System: A Summary of Legal Artificial Intelligence ...

    9. 我用飞桨Parakeet合成小姐姐声音帮我“读”论文

      点击左上方蓝字关注我们 [飞桨开发者说]顾茜,PPDE飞桨开发者技术专家,烟草行业开发工程师,毕业于厦门大学数学科学学院,研究方向为:人工智能在烟草行业的应用. 深度学习的论文读起来总是有点艰难,看不 ...

    最新文章

    1. 闰年流程图(18网三袁昳)
    2. 频率分布直方图组距如何确定_吃透教材理解教参,《直方图》教学反思
    3. 数据结构(C语言实现)勘误
    4. JAVA_OA管理系统(三)番外篇:Myeclipse导入Spring源码包
    5. 宁波医院计算机试题及答案,(宁波市第25届小学生计算机程序设计竞赛试题及答案.doc...
    6. 为什么启动hbase shell后,创建按create 'test', 'cf'失败?
    7. java实现使用POI对word文档的页眉页脚的编辑
    8. python编程语言期中试题_MOOC Python编程的第六周测试,MOOCPython,语言,程序设计,测试题...
    9. Unity实现Text BestFit文本超框时再缩小字体
    10. Ubuntu安装Typora(md文件)
    11. 解决Office在修改安装路径后,提示“操作系统当前配置不能运行此程序”的问题
    12. 水题挑战3:NOIP 2017 宝藏
    13. STM32F767 Timer定时器与Usart串口综合实训
    14. Servlet生命周期总结
    15. Python一些可能用的到的函数系列11 本地哈希和服务器哈希比对
    16. Qt - MQTT客户端调试助手
    17. 5.CCS 配置头文件路径
    18. 使用远程桌面Remote desktop访问Azure虚拟机
    19. 区块链快速入门(三)——CFT(非拜占庭容错)共识算法
    20. JAVA 1.1

    热门文章

    1. 数据链路层相关技术总结
    2. python用电度数设计_用Python实现一个爬取XX大学电费通知的小脚本
    3. 南卡蓝牙耳机好还是漫步者好?国产半入耳式蓝牙耳机对比
    4. BZOJ 1143 祭祀 river(最大独立集)
    5. DLbest系列1——GAN生成对抗网络2
    6. 在 Jetpack Compose 中安全地使用数据流
    7. 产品经理笔试面试准备
    8. Android开发规范[Java+android]
    9. 情人节用python实现 跳动爱心代码 ,表白神器
    10. 茫茫沧海,你终成了我无法逾越的泅渡