BERT算是带领NLP全面进入预训练时代的一篇paper,NLPer必读神作

模型

首先我们要知道bert是一个双向的语言模型,写在标题里面了

文中说到,bert模型是直接基于transformer的encoder,并没有做改动

为了让BERT处理各种下游任务,我们的输入表示能够明确地表示一个句子和一对句子

使用wordpiece embedding

每个序列的一个词永远是一个特殊标记 [CLS],bert是希望它最后的输出代表整个序列的信息

当需要学习句子对的时候,会加入一个标记 [SEP],代表两个句子之间的分隔,或者去学一个embedding,代表每个token是属于第一个句子还是属于第二句子

一个句子输入到bert之后,它的embedding表示将由如下表示:

自身的embedding,表示在哪个句子的embedding,位置embedding

接下来来到最重要的部分:bert的训练

bert的训练分为两种任务,分别是Masked language model 和 next sentence prediction

Masked LM :15%的概率替换成mask,在这15%被选中成为mask的词中,80%概率真的被替换成[mask],10%的概率替换成一个随机的token,10%的概率什么都不干

NSP:有句子a和b,50%的概率b真的在a之后,50%的概率b是随机从别的地方选取出来的句子

实验




评价

没什么好说的,BERT yyds!

Raki的读paper小记:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding相关推荐

  1. Paper:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双向Tr

    Paper:<BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双 ...

  2. BERT(一)--论文翻译:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    转载请注明出处:https://blog.csdn.net/nocml/article/details/124860490 传送门: BERT(一)–论文翻译:BERT: Pre-training o ...

  3. 论文阅读笔记:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录 前言 介绍 背景知识 相关工作 具体实现结构 Pre-training BERT Fine-tun ...

  4. bert论文解析——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 前言 bert是google在NLP方 ...

  5. 【文本分类】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    ·阅读摘要:   Bert是继Transformer之后的又一杰出的模型.Bert是一种预训练语言模型,是在GPT.Elmo.Transformer的基础上提出的.基于Bert的多个NLP领域任务都取 ...

  6. 预训练模型:BERT深度解析《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

    目录 1. 背景 2. 什么是 Bert 及原理? 3. 论文内容<BERT: Pre-training of Deep Bidirectional Transformers for Langu ...

  7. 《BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding》

    目录 <BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding> 1.Bert研究意 ...

  8. 【论文阅读笔记】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    BERT的出现使我们终于可以在一个大数据集上训练号一个深的神经网络,应用在很多NLP应用上面. BERT: Pre-training of Deep Bidirectional Transformer ...

  9. 论文阅读——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Abstract 作者引入了一种新的语 ...

  10. BERT论文阅读(一): Pre-training of Deep Bidirectional Transformers for Language Understanding

    BERT三大核心: pre-training bidirectional==>alleviates the unidirectionality constriant of fine-tuning ...

最新文章

  1. “斐波那契数列”的两种算法
  2. android studio 执行不了,请问,Android studio程序不报错,但是一运行就stop是什原因...
  3. 【哲学】《哲学的故事》笔记
  4. python pip install virtualenv时注意事项:需使用root权限 否则报virtualenv命令找不到
  5. linux-macbook内核,技术|用 Linux 让旧 MacBook 重获新生
  6. 用dl元素编辑html个人信息,html dl dt dd标签元素语法结构与使用
  7. MySQL锁的灵魂七拷问
  8. java字符串数字统计_对字符串进行简单的字符数字统计 探索java中的List功能
  9. vs无法启动程序 系统找不到指定文件_进不了系统时要做的事情
  10. navicat编程界面_navicat for mysql使用方法
  11. 创建oracle数据库job服务:PlSqlDev操作job
  12. PMP考试一定要大量做题吗?
  13. WaitHandles 的数目必须少于或等于 64 个
  14. php下载微信服务器图片
  15. 查看已安装Tomcat的版本号
  16. Struts2 ognl判断集合对象是否为空的方法
  17. Java SE 6 新特性: 对脚本语言的支持 [VERY GOOD]
  18. 看保罗-艾伦的《我用微软改变世界》有感,谈中国原创发明创业的苦逼环境!操蛋的中国VC!
  19. eSPI自学笔记(三):Run-time Flash Access Channel
  20. Javascript 参数归一化

热门文章

  1. NeHe OpenGL第九课:移动图像
  2. 当下学习Linux该选择哪个产品?
  3. 登录,注册,个人信息,退出的隐藏和出现
  4. 天梯赛L2-6 树的遍历
  5. Linux学习笔记1 - Linux系统简介
  6. python storm连接mysql_python ORM storm中的复合外键引用
  7. python公式_魔方字母公式转ABC公式python小工具
  8. PAT之算法/技巧:01背包
  9. ai快捷键常用表_掌握这些AI常用快捷键和小技巧,提高速度
  10. 栈解决中缀表达式转后缀表达式_第3章栈和队列,中缀表达式转换成后缀表达式...