文章目录

相关信息
摘要（Abstract）
1. 介绍（Introduction）
2. 相关工作（Related Work）
3. 中文预训练模型（Chinese Pre-trained Language Models）
- 3.1 BERT-wwm & RoBERTa-wwm
- 3.2 MacBERT
4. 实验设置（Experiment Setups）
- 4.1 Setups for Pre-Trained Language Models
- 4.2 Setups for Fine-tuning Tasks
5. 结果（Results）
6. 讨论（Discussion）
7. 结论（Conclusion）

摘要（Abstract）

作者提出了一个中文Bert，起名为MacBert。

该模型采用的mask策略（作者提出的）是 MLM as correction (Mac)

作者用MacBert在8个NLP任务上进行了测试，大部分都能达到SOTA

1. 介绍（Introduction）

作者的贡献：提出了新的MacBert模型，其缓和了pre-training阶段和fine-tuning阶段的gap。采用的方式是“mask字时，采用相似的字进行mask”

2. 相关工作（Related Work）

这个表总结的不错。其他略

3. 中文预训练模型（Chinese Pre-trained Language Models）

3.1 BERT-wwm & RoBERTa-wwm

略（也是相关工作）

3.2 MacBERT

MacBERT的训练使用了两个任务，MLM和SOP（sentence-order prediciton）

对于MLM任务，与BERT类似，但做了如下修改：

作者使用N-gram的方式来选择要mask的token，按照40%,30%,20,10%的比例进行1-gram到4-gram的mask
相对于BERT中使用[MASK]来替换token，作者使用的方式是使用相似的字来进行替换。相似字使用的是Synonyms toolkit
对于要进行mask的token，15%使用[mask]替换，80%使用相似字，10%使用随机字，剩下10%使用原始字。

在原文中，作者使用的是word，其实我也不太清楚他说的word是一个字还是一个词。一般中文的BERT模型都是按字来处理的，所以我这里也认为是word指代的是一个字。

对于SOP任务，其负样本就是将两个连续的句子交换顺序。

4. 实验设置（Experiment Setups）

4.1 Setups for Pre-Trained Language Models

数据集：①中文维基百科，0.4B个字；② 新百科全书(encyclopedia news)+问答网站，5.4B个字

分词工具：LTP(Language Technology Platform) ， 4.2k star，基于深度学习，包括：分词、词性标注、句法分析等

训练方式：①对于BaseModel，基于Chinese BERT-base继续训练；②对于LargeModel，从0开始训练。

其他设置：

句子最大长度： 512
Weight Decay Optimizer：Adam
Optimizer: Lamb
对MacBERT-large：2M steps, 512 batch_size, 1e-4 learning rate

训练细节汇总如下表：

4.2 Setups for Fine-tuning Tasks

本节是关于下游任务的设置，略。

5. 结果（Results）

本章展示了在各个下游任务的实验结果。这里我简单列个表：

任务	Level	MacBERT结果
Machine Reading Comprehension	document-level	最强
Single Sentence Classification	sentence-level	一般，与其他差异不大
Sentence Pair Classification	sentence-level	稍好，平均来讲，比其他模型稍微好一丢丢

6. 讨论（Discussion）

作者做了消融实验，得出了以下结论：

MacBERT对Performance的提升主要是因为N-gram mask和相似词替换(Similar word replacement)这两个机制
SOP(Sentence-order Prediciton)任务虽然对Performance也有提升，但微乎其微。

7. 结论（Conclusion）

略

【论文笔记】MacBert：Revisiting Pre-trained Models for Chinese Natural Language Processing相关推荐

Mac BERT 论文解读 Revisiting Pre-trained Models for Chinese Natural Language Processing
这里是对 EMNLP 2020 的 Mac BERT 的分享作者是哈工大刘挺老师的团队个人看法欢迎指正文章对近几年的预训练模型做了对比总结,并在此基础上提出了MacBERT 首先是 Mac B ...
【论文阅读】A Survey on Dynamic Neural Networks for Natural Language Processing
论文信息 A Survey on Dynamic Neural Networks for Natural Language Processing 发表单位:University of Californ ...
CLIP论文笔记--《Learning Transferable Visual Models From Natural Language Supervision》
CLIP论文笔记--<Learning Transferable Visual Models From Natural Language Supervision> 1.Introducti ...
论文阅读：Pre-trained Models for Natural Language Processing: A Survey 综述：自然语言处理的预训练模型
Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型目录 Pre-trained Models f ...
[论文解读] Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey
Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey 文章目录 Adversaria ...
论文阅读：A Primer on Neural Network Models for Natural Language Processing（1）
前言 2017.10.2博客园的第一篇文章,Mark. 由于实验室做的是NLP和医疗相关的内容,因此开始啃NLP这个硬骨头,希望能学有所成.后续将关注知识图谱,深度强化学习等内容. 进入正题,该文章是 ...
【吴恩达深度学习笔记】5.2自然语言处理与词嵌入Natural Language Processing and Word Embeddings
第五门课序列模型(Sequence Models) 2.1词汇表征(Word Representation) 词嵌入(word embeddings)是语言表示的一种方式,可以让算法自动的理解一些类 ...
论文阅读：Natural Language Processing Advancements By Deep Learning: A Survey
文章目录一.介绍二.背景 1.人工智能和深度学习 (1)多层感知机 (2)卷积神经网络 (3)循环神经网络 (4)自编码器 (5)生成对抗网络 2.NLP中深度学习的动机三.NLP领域的核心概念 ...
读论文《Natural Language Processing (Almost) from Scratch》
读论文<Natural Language Processing (Almost) from Scratch> 原文地址:http://blog.csdn.net/qq_31456593/a ...

【论文笔记】MacBert：Revisiting Pre-trained Models for Chinese Natural Language Processing