第一遍

标题以及作者（2021 11.25）

本文贡献点：

BERT
1. BERT主要的两个训练任务，MLM和NSP
ERNIE（Enhanced Representation through kNowledge IntEgration）
1. 通过优化掩盖过程（实体级别掩盖[命名实体]、短语级别掩盖[类似于N-gram掩盖策略]）
XLNet(为了避免BERT的MLM在训练和微调阶段的不一致问题)
1. Permutation Language Model
2. 将自编码修改为自回归
RoBERT(Robustly Optimized BERT Pretraining Approach)
1. 使用更大的batch、更长的序列
2. 去除NSP任务
ALBERT(A Lite BERT，主要为了降低BERT内存消耗和训练速度慢的问题)
1. 将嵌入层矩阵分解为两个小矩阵
2. 跨层参数共享，在不同层中参数共享
3. 提出了SOP任务（sentence-order prediction）去替代NSP任务
ELECTRA(Efficiently Learning an Encoder that Classifiers Token Replacements Accurately)
1. 采用生成器-鉴别器的结构，类似于GAN
2. 使用一个小的MLM去预测被掩盖住的词，使用一个鉴别器来分辨输入的token是否被生成器替换（Replaced Token Detection，RTD），二分类问题。
3. 在微调阶段，舍弃生成器，仅用鉴别器进行微调。

BERT-wwm & RoBERTa-wwm
1. 中文没法使用子词分割，因此使用词级别的分割和CWS（Chinese Word Segmentation），本文使用LTP工具
ELECTRA
RBT Series
1. 更小的BERT-like模型，例如：RBT3（3层RoBERTa-base）、RBT4、RBT6、RBTL3（3层RoBERTa-large）

模型结构
MLM as correction
1. 本文采用wwm(N-gram)遮蔽策略，从一个词到4个词对应的掩盖概率为40%-10%；未来还将尝试新的遮蔽策略PMI-masking
2. 本文采用词的近义词（通过使用Synonyms工具）进行遮蔽，在极少数情况下，没有近义词时使用随机的词替换。
3. 本文对输入15%的词进行遮蔽，对于遮蔽的词80%的概率被替换为近义词、10%的概率被替换为随机词、10%的概率保留为原始词。
Sentence Order Prediction（SOP）
1. 正样本：由两个连续的文本组成；负样本：通过交换原始文本顺序得到
Neural Architecture
1. 获取文本上下文表示
  $(H(i−1)),i∈{1,…,L}\begin{gathered} X=[\text { CLS }] A_{1} \ldots A_{n}[\text { SEP }] B_{1} \ldots B_{m}[\text { SEP }] \\ \boldsymbol{H}^{(0)}=\operatorname{Embedding}(X) \\ \boldsymbol{H}^{(i)}=\text { Transformer }\left(\boldsymbol{H}^{(i-1)}\right), \quad i \in\{1, \ldots, L\} \end{gathered}$
2. MLM as correction任务损失定义
  $pi=HimWeT+bL=−1M∑i=1Myilogpi\boldsymbol{p}_i = \boldsymbol{H}_i^m\boldsymbol{W}^{e^T} + \boldsymbol{b} \\ \mathcal{L} = -\frac{1}{M}\sum_{i=1}^{M}\boldsymbol{y}_i\text{log}\boldsymbol{p}_i$
3. SOP输出定义，SOP损失也采用交叉熵损失函数
  $p=softmax(h0Ws+bs)\boldsymbol{p} = \bold{softmax}(\boldsymbol{h}_0\boldsymbol{W}^s+\boldsymbol{b}^s)$
4. 网络损失函数
  $L=Lmac+Lsop\mathcal{L} = \mathcal{L}_{mac} + \mathcal{L}_{sop}$

Machine Reading Comprehension

Machine Reading Comprehension（MRC）是一种具有代表性的文档级建模任务，需要根据给定的文章回答问题。
Single Sentence Classification
Sentence Pair Classification
小模型上的结果