【论文笔记】MacBert:Revisiting Pre-trained Models for Chinese Natural Language Processing
文章目录
- 相关信息
- 摘要(Abstract)
- 1. 介绍(Introduction)
- 2. 相关工作(Related Work)
- 3. 中文预训练模型(Chinese Pre-trained Language Models)
- 3.1 BERT-wwm & RoBERTa-wwm
- 3.2 MacBERT
- 4. 实验设置(Experiment Setups)
- 4.1 Setups for Pre-Trained Language Models
- 4.2 Setups for Fine-tuning Tasks
- 5. 结果(Results)
- 6. 讨论(Discussion)
- 7. 结论(Conclusion)
相关信息
论文年份:2020年04月
论文地址:https://arxiv.org/pdf/2004.13922.pdf
论文代码(官方):https://github.com/ymcui/MacBERT
论文模型(Hugging Face): hfl/chinese-macbert-base ; hfl/chinese-macbert-large
论文阅读前提:熟悉BERT模型及其前置知识
一句话概括一下本文的内容:作者对原有的BERT的MLM任务进行了魔改,不使用[MASK]
作为掩码,而是使用相似的字进行掩码,然后发现Performance提升了,起个新名字MacBERT。
摘要(Abstract)
作者提出了一个中文Bert,起名为MacBert。
该模型采用的mask策略(作者提出的)是 MLM as correction (Mac)
作者用MacBert在8个NLP任务上进行了测试,大部分都能达到SOTA
1. 介绍(Introduction)
作者的贡献:提出了新的MacBert模型,其缓和了pre-training阶段和fine-tuning阶段的gap。采用的方式是“mask字时,采用相似的字进行mask”
2. 相关工作(Related Work)
这个表总结的不错。其他略
3. 中文预训练模型(Chinese Pre-trained Language Models)
3.1 BERT-wwm & RoBERTa-wwm
略(也是相关工作)
3.2 MacBERT
MacBERT的训练使用了两个任务,MLM和SOP(sentence-order prediciton)
对于MLM任务,与BERT类似,但做了如下修改:
- 作者使用N-gram的方式来选择要mask的token,按照40%,30%,20,10%的比例进行1-gram到4-gram的mask
- 相对于BERT中使用
[MASK]
来替换token,作者使用的方式是使用相似的字来进行替换。相似字使用的是Synonyms toolkit - 对于要进行mask的token,15%使用
[mask]
替换,80%使用相似字,10%使用随机字,剩下10%使用原始字。
在原文中,作者使用的是word,其实我也不太清楚他说的word是一个字还是一个词。一般中文的BERT模型都是按字来处理的,所以我这里也认为是word指代的是一个字。
对于SOP任务,其负样本就是将两个连续的句子交换顺序。
4. 实验设置(Experiment Setups)
4.1 Setups for Pre-Trained Language Models
数据集:①中文维基百科,0.4B个字;② 新百科全书(encyclopedia news)+问答网站,5.4B个字
分词工具:LTP(Language Technology Platform) , 4.2k star, 基于深度学习,包括:分词、词性标注、句法分析等
训练方式:①对于BaseModel,基于Chinese BERT-base继续训练;②对于LargeModel,从0开始训练。
其他设置:
- 句子最大长度: 512
- Weight Decay Optimizer:Adam
- Optimizer: Lamb
- 对MacBERT-large:2M steps, 512 batch_size, 1e-4 learning rate
训练细节汇总如下表:
4.2 Setups for Fine-tuning Tasks
本节是关于下游任务的设置,略。
5. 结果(Results)
本章展示了在各个下游任务的实验结果。这里我简单列个表:
任务 | Level | MacBERT结果 |
---|---|---|
Machine Reading Comprehension | document-level | 最强 |
Single Sentence Classification | sentence-level | 一般,与其他差异不大 |
Sentence Pair Classification | sentence-level | 稍好,平均来讲,比其他模型稍微好一丢丢 |
6. 讨论(Discussion)
作者做了消融实验,得出了以下结论:
- MacBERT对Performance的提升主要是因为N-gram mask和相似词替换(Similar word replacement)这两个机制
- SOP(Sentence-order Prediciton)任务虽然对Performance也有提升,但微乎其微。
7. 结论(Conclusion)
略
【论文笔记】MacBert:Revisiting Pre-trained Models for Chinese Natural Language Processing相关推荐
- Mac BERT 论文解读 Revisiting Pre-trained Models for Chinese Natural Language Processing
这里是对 EMNLP 2020 的 Mac BERT 的分享 作者是哈工大刘挺老师的团队 个人看法 欢迎指正 文章对近几年的预训练模型做了对比总结,并在此基础上提出了MacBERT 首先是 Mac B ...
- 【论文阅读】A Survey on Dynamic Neural Networks for Natural Language Processing
论文信息 A Survey on Dynamic Neural Networks for Natural Language Processing 发表单位:University of Californ ...
- CLIP论文笔记--《Learning Transferable Visual Models From Natural Language Supervision》
CLIP论文笔记--<Learning Transferable Visual Models From Natural Language Supervision> 1.Introducti ...
- 论文阅读:Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型
Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型 目录 Pre-trained Models f ...
- [论文解读] Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey
Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey 文章目录 Adversaria ...
- 论文阅读:A Primer on Neural Network Models for Natural Language Processing(1)
前言 2017.10.2博客园的第一篇文章,Mark. 由于实验室做的是NLP和医疗相关的内容,因此开始啃NLP这个硬骨头,希望能学有所成.后续将关注知识图谱,深度强化学习等内容. 进入正题,该文章是 ...
- 【吴恩达深度学习笔记】5.2自然语言处理与词嵌入Natural Language Processing and Word Embeddings
第五门课 序列模型(Sequence Models) 2.1词汇表征(Word Representation) 词嵌入(word embeddings)是语言表示的一种方式,可以让算法自动的理解一些类 ...
- 论文阅读:Natural Language Processing Advancements By Deep Learning: A Survey
文章目录 一.介绍 二.背景 1.人工智能和深度学习 (1)多层感知机 (2)卷积神经网络 (3)循环神经网络 (4)自编码器 (5)生成对抗网络 2.NLP中深度学习的动机 三.NLP领域的核心概念 ...
- 读论文《Natural Language Processing (Almost) from Scratch》
读论文<Natural Language Processing (Almost) from Scratch> 原文地址:http://blog.csdn.net/qq_31456593/a ...
最新文章
- git branch
- Linux-DNS服务器的配置与管理(上)
- 与WebXR共同创建者Diego Marcos一起探讨沉浸式Web的未来(下)
- eclipse项目导出错误处理
- maven的生命周期和核心插件的功能
- Fullpage参数说明
- 东北林大计算机考研难吗,北京林业大学考研难吗?一般要什么水平才可以进入?...
- C语言求斐波那契数列前10项
- elementui表单校验原始密码_玩转表单交互,提升用户体验
- 手动构建Docker镜像
- html字体加载太慢,字体加载CSS @font-face性能优化的常用策略
- python3编写方程计算器_python算法——方程计算器小工具
- MD5加密----------
- DOS windows PE三者有什么区别
- 计算机组成原理第三部: 总线与IO系统
- Axure 名片制作
- 2015年第4本(英文第3本):Godfather教父
- 解决PHP项目显示“该网页无法正常运作”,但没有显示报错内容
- 如何在Mac os X上搭建本地服务器环境
- 基于FME实现dwg等高线、高程点、计曲线注记的高程值批量修改研究,等高线批量修改高程,高程点批量修改高程,计曲线注记批量修改高程