文章目录

  • 相关信息
  • 摘要(Abstract)
  • 1. 介绍(Introduction)
  • 2. 相关工作(Related Work)
  • 3. 中文预训练模型(Chinese Pre-trained Language Models)
    • 3.1 BERT-wwm & RoBERTa-wwm
    • 3.2 MacBERT
  • 4. 实验设置(Experiment Setups)
    • 4.1 Setups for Pre-Trained Language Models
    • 4.2 Setups for Fine-tuning Tasks
  • 5. 结果(Results)
  • 6. 讨论(Discussion)
  • 7. 结论(Conclusion)

相关信息

论文年份:2020年04月

论文地址:https://arxiv.org/pdf/2004.13922.pdf

论文代码(官方):https://github.com/ymcui/MacBERT

论文模型(Hugging Face): hfl/chinese-macbert-base ; hfl/chinese-macbert-large

论文阅读前提:熟悉BERT模型及其前置知识

一句话概括一下本文的内容:作者对原有的BERT的MLM任务进行了魔改,不使用[MASK]作为掩码,而是使用相似的字进行掩码,然后发现Performance提升了,起个新名字MacBERT。

摘要(Abstract)

作者提出了一个中文Bert,起名为MacBert

该模型采用的mask策略(作者提出的)是 MLM as correction (Mac)

作者用MacBert在8个NLP任务上进行了测试,大部分都能达到SOTA

1. 介绍(Introduction)

作者的贡献:提出了新的MacBert模型,其缓和了pre-training阶段和fine-tuning阶段的gap。采用的方式是“mask字时,采用相似的字进行mask”

2. 相关工作(Related Work)

这个表总结的不错。其他略

3. 中文预训练模型(Chinese Pre-trained Language Models)

3.1 BERT-wwm & RoBERTa-wwm

略(也是相关工作)

3.2 MacBERT

MacBERT的训练使用了两个任务,MLM和SOP(sentence-order prediciton)

对于MLM任务,与BERT类似,但做了如下修改:

  • 作者使用N-gram的方式来选择要mask的token,按照40%,30%,20,10%的比例进行1-gram到4-gram的mask
  • 相对于BERT中使用[MASK]来替换token,作者使用的方式是使用相似的字来进行替换。相似字使用的是Synonyms toolkit
  • 对于要进行mask的token,15%使用[mask]替换,80%使用相似字,10%使用随机字,剩下10%使用原始字。

在原文中,作者使用的是word,其实我也不太清楚他说的word是一个字还是一个词。一般中文的BERT模型都是按字来处理的,所以我这里也认为是word指代的是一个字。

对于SOP任务,其负样本就是将两个连续的句子交换顺序。

4. 实验设置(Experiment Setups)

4.1 Setups for Pre-Trained Language Models

数据集:①中文维基百科,0.4B个字;② 新百科全书(encyclopedia news)+问答网站,5.4B个字

分词工具:LTP(Language Technology Platform) , 4.2k star, 基于深度学习,包括:分词、词性标注、句法分析等

训练方式:①对于BaseModel,基于Chinese BERT-base继续训练;②对于LargeModel,从0开始训练。

其他设置

  • 句子最大长度: 512
  • Weight Decay Optimizer:Adam
  • Optimizer: Lamb
  • 对MacBERT-large:2M steps, 512 batch_size, 1e-4 learning rate

训练细节汇总如下表:

4.2 Setups for Fine-tuning Tasks

本节是关于下游任务的设置,略。

5. 结果(Results)

本章展示了在各个下游任务的实验结果。这里我简单列个表:

任务 Level MacBERT结果
Machine Reading Comprehension document-level 最强
Single Sentence Classification sentence-level 一般,与其他差异不大
Sentence Pair Classification sentence-level 稍好,平均来讲,比其他模型稍微好一丢丢

6. 讨论(Discussion)

作者做了消融实验,得出了以下结论:

  1. MacBERT对Performance的提升主要是因为N-gram mask和相似词替换(Similar word replacement)这两个机制
  2. SOP(Sentence-order Prediciton)任务虽然对Performance也有提升,但微乎其微。

7. 结论(Conclusion)

【论文笔记】MacBert:Revisiting Pre-trained Models for Chinese Natural Language Processing相关推荐

  1. Mac BERT 论文解读 Revisiting Pre-trained Models for Chinese Natural Language Processing

    这里是对 EMNLP 2020 的 Mac BERT 的分享 作者是哈工大刘挺老师的团队 个人看法 欢迎指正 文章对近几年的预训练模型做了对比总结,并在此基础上提出了MacBERT 首先是 Mac B ...

  2. 【论文阅读】A Survey on Dynamic Neural Networks for Natural Language Processing

    论文信息 A Survey on Dynamic Neural Networks for Natural Language Processing 发表单位:University of Californ ...

  3. CLIP论文笔记--《Learning Transferable Visual Models From Natural Language Supervision》

    CLIP论文笔记--<Learning Transferable Visual Models From Natural Language Supervision> 1.Introducti ...

  4. 论文阅读:Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型

    Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型 目录 Pre-trained Models f ...

  5. [论文解读] Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey

    Adversarial Attacks on Deep Learning Models in Natural Language Processing: A Survey 文章目录 Adversaria ...

  6. 论文阅读:A Primer on Neural Network Models for Natural Language Processing(1)

    前言 2017.10.2博客园的第一篇文章,Mark. 由于实验室做的是NLP和医疗相关的内容,因此开始啃NLP这个硬骨头,希望能学有所成.后续将关注知识图谱,深度强化学习等内容. 进入正题,该文章是 ...

  7. 【吴恩达深度学习笔记】5.2自然语言处理与词嵌入Natural Language Processing and Word Embeddings

    第五门课 序列模型(Sequence Models) 2.1词汇表征(Word Representation) 词嵌入(word embeddings)是语言表示的一种方式,可以让算法自动的理解一些类 ...

  8. 论文阅读:Natural Language Processing Advancements By Deep Learning: A Survey

    文章目录 一.介绍 二.背景 1.人工智能和深度学习 (1)多层感知机 (2)卷积神经网络 (3)循环神经网络 (4)自编码器 (5)生成对抗网络 2.NLP中深度学习的动机 三.NLP领域的核心概念 ...

  9. 读论文《Natural Language Processing (Almost) from Scratch》

    读论文<Natural Language Processing (Almost) from Scratch> 原文地址:http://blog.csdn.net/qq_31456593/a ...

最新文章

  1. git branch
  2. Linux-DNS服务器的配置与管理(上)
  3. 与WebXR共同创建者Diego Marcos一起探讨沉浸式Web的未来(下)
  4. eclipse项目导出错误处理
  5. maven的生命周期和核心插件的功能
  6. Fullpage参数说明
  7. 东北林大计算机考研难吗,北京林业大学考研难吗?一般要什么水平才可以进入?...
  8. C语言求斐波那契数列前10项
  9. elementui表单校验原始密码_玩转表单交互,提升用户体验
  10. 手动构建Docker镜像
  11. html字体加载太慢,字体加载CSS @font-face性能优化的常用策略
  12. python3编写方程计算器_python算法——方程计算器小工具
  13. MD5加密----------
  14. DOS windows PE三者有什么区别
  15. 计算机组成原理第三部: 总线与IO系统
  16. Axure 名片制作
  17. 2015年第4本(英文第3本):Godfather教父
  18. 解决PHP项目显示“该网页无法正常运作”,但没有显示报错内容
  19. 如何在Mac os X上搭建本地服务器环境
  20. 基于FME实现dwg等高线、高程点、计曲线注记的高程值批量修改研究,等高线批量修改高程,高程点批量修改高程,计曲线注记批量修改高程

热门文章

  1. clickhouse 日期函数无效报错问题处理
  2. WEB1.0起源:全球首个网站info.cern.ch
  3. 安卓源码,安卓开发,跑步打卡项目app源码,包括源码和简单文 档
  4. python实现DNA翻译
  5. win10 关闭快速启动以及进入BIOS
  6. python中复制n次字符串_Python 字符串操作方法大全
  7. 刨根问底U3D---从Profile中窥探Unity的内存管理
  8. Google三大论文之GFS
  9. 2021-11-21 WPF上位机 94-Modbus通信数据交换问题
  10. 球体投影到像素空间的大小