BERT算是带领NLP全面进入预训练时代的一篇paper，NLPer必读神作

模型

首先我们要知道bert是一个双向的语言模型，写在标题里面了

文中说到，bert模型是直接基于transformer的encoder，并没有做改动

为了让BERT处理各种下游任务，我们的输入表示能够明确地表示一个句子和一对句子

使用wordpiece embedding

每个序列的一个词永远是一个特殊标记 [CLS]，bert是希望它最后的输出代表整个序列的信息

当需要学习句子对的时候，会加入一个标记 [SEP]，代表两个句子之间的分隔，或者去学一个embedding，代表每个token是属于第一个句子还是属于第二句子

一个句子输入到bert之后，它的embedding表示将由如下表示：

自身的embedding，表示在哪个句子的embedding，位置embedding

接下来来到最重要的部分：bert的训练

bert的训练分为两种任务，分别是Masked language model 和 next sentence prediction

Masked LM ：15%的概率替换成mask，在这15%被选中成为mask的词中，80%概率真的被替换成[mask]，10%的概率替换成一个随机的token，10%的概率什么都不干

NSP：有句子a和b，50%的概率b真的在a之后，50%的概率b是随机从别的地方选取出来的句子

实验

评价

没什么好说的，BERT yyds！

Raki的读paper小记：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding相关推荐

Paper：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双向Tr
Paper:<BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding用于语言理解的深度双 ...
BERT(一)--论文翻译：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
转载请注明出处:https://blog.csdn.net/nocml/article/details/124860490 传送门: BERT(一)–论文翻译:BERT: Pre-training o ...
论文阅读笔记：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录前言介绍背景知识相关工作具体实现结构 Pre-training BERT Fine-tun ...
bert论文解析——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 前言 bert是google在NLP方 ...
【文本分类】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
·阅读摘要: Bert是继Transformer之后的又一杰出的模型.Bert是一种预训练语言模型,是在GPT.Elmo.Transformer的基础上提出的.基于Bert的多个NLP领域任务都取 ...
预训练模型：BERT深度解析《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
目录 1. 背景 2. 什么是 Bert 及原理? 3. 论文内容<BERT: Pre-training of Deep Bidirectional Transformers for Langu ...
《BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding》
目录 <BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding> 1.Bert研究意 ...
【论文阅读笔记】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT的出现使我们终于可以在一个大数据集上训练号一个深的神经网络,应用在很多NLP应用上面. BERT: Pre-training of Deep Bidirectional Transformer ...
论文阅读——BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Abstract 作者引入了一种新的语 ...
BERT论文阅读(一): Pre-training of Deep Bidirectional Transformers for Language Understanding
BERT三大核心: pre-training bidirectional==>alleviates the unidirectionality constriant of fine-tuning ...

Raki的读paper小记：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

模型

实验

评价

Raki的读paper小记：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding相关推荐

最新文章

热门文章