论文题目:BERT-Bidirectional Encoder Representations from Transformers

Masked Language Model(MLM)

随机掩码语言模型:

  • 给定一个输入序列:[CLS] The dog jumped over the log. [SEP]
  • 随机mask15%的token:[CLS] The dog jumped [MASK] the log. [SEP]
  • 预测原本单词的值:Prediction='over'

BERT模型的输入:

  • 随机mask15%的token,以一个特殊的token:[MASK]代替
  • Token Embedding + Segmentation Embedding + Position Embedding
  • 输入形式:[CLS] sentence1 [SEP] sentence2 [SEP]

特点:

  • 类似于降噪自动编码机(Denoising Auto-Encoder, DAE),而BERT仅仅通过corrupted input sentence预测被mask的位置的词,而不需要还原整个句子。
  • 做到了双向语言模型(Bidirectional Language Model),在预测中心词的过程中通过模型对整个文章的编码可以得到上下文的信息,去预测中心词出现的概率。

优化的目标函数:

max_{\theta} logp_{\theta}(\bar{x}|\hat{x})\approx \sum_{t=1}^{T}m_{t}logp_{\theta}(x_{t}|\hat{x})

其中,\bar{x}表示重建后的句子,\hat{x}表示随机mask后的句子,如果第t个token被mask,则m_{t}=1

与GPT2的比较

BERT与GPT2沿用了相同的架构,都是多层Transformer。

区别:

  • BERT:Masked LM,可以捕捉到整个上下文的信息
  • GPT2:Left2Right LM,通过对于Attention mask的限定,可以让第t个位置的词仅仅看到前t-1位置的词,这样的训练方式导致GPT2模型只能建模前向的概率分布

论文笔记《BERT》相关推荐

  1. 论文笔记之Understanding and Diagnosing Visual Tracking Systems

    Understanding and Diagnosing Visual Tracking Systems 论文链接:http://dwz.cn/6qPeIb 本文的主要思想是为了剖析出一个跟踪算法中到 ...

  2. 《Understanding and Diagnosing Visual Tracking Systems》论文笔记

    本人为目标追踪初入小白,在博客下第一次记录一下自己的论文笔记,如有差错,恳请批评指正!! 论文相关信息:<Understanding and Diagnosing Visual Tracking ...

  3. 论文笔记Understanding and Diagnosing Visual Tracking Systems

    最近在看目标跟踪方面的论文,看到王乃岩博士发的一篇分析跟踪系统的文章,将目标跟踪系统拆分为多个独立的部分进行分析,比较各个部分的效果.本文主要对该论文的重点的一个大致翻译,刚入门,水平有限,如有理解错 ...

  4. 目标跟踪笔记Understanding and Diagnosing Visual Tracking Systems

    Understanding and Diagnosing Visual Tracking Systems 原文链接:https://blog.csdn.net/u010515206/article/d ...

  5. 追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems)

    追踪系统分模块解析(Understanding and Diagnosing Visual Tracking Systems) PROJECT http://winsty.net/tracker_di ...

  6. ICCV 2015 《Understanding and Diagnosing Visual Tracking Systems》论文笔记

    目录 写在前面 文章大意 一些benchmark 实验 实验设置 基本模型 数据集 实验1 Featrue Extractor 实验2 Observation Model 实验3 Motion Mod ...

  7. Understanding and Diagnosing Visual Tracking Systems

    文章把一个跟踪器分为几个模块,分别为motion model, feature extractor, observation model, model updater, and ensemble po ...

  8. CVPR 2017 SANet:《SANet: Structure-Aware Network for Visual Tracking》论文笔记

    理解出错之处望不吝指正. 本文模型叫做SANet.作者在论文中提到,CNN模型主要适用于类间判别,对于相似物体的判别能力不强.作者提出使用RNN对目标物体的self-structure进行建模,用于提 ...

  9. ICCV 2017 UCT:《UCT: Learning Unified Convolutional Networks forReal-time Visual Tracking》论文笔记

    理解出错之处望不吝指正. 本文模型叫做UCT.就像论文题目一样,作者提出了一个基于卷积神经网络的end2end的tracking模型.模型的整体结构如下图所示(图中实线代表online trackin ...

  10. CVPR 2018 STRCF:《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》论文笔记

    理解出错之处望不吝指正. 本文提出的模型叫做STRCF. 在DCF中存在边界效应,SRDCF在DCF的基础上中通过加入spatial惩罚项解决了边界效应,但是SRDCF在tracking的过程中要使用 ...

最新文章

  1. 如何优雅的编写 JavaScript 代码
  2. ajax点赞只能点一次,php+mysql+ajax局部刷新点赞取消点赞功能(每个账号只点赞一次).pdf...
  3. 尴尬!中科院国产编程语言“木兰”引争议:声称完全自主,实则换皮Python?...
  4. Python学习 - 之 数据封装和私有属性
  5. java研发自测报告_开发自测方法探讨
  6. django表单提交案例
  7. 晨光文具卖出去的笔能绕地球几圈?
  8. 初始JavaScript,世界上最流行的语言之一!
  9. 玩转matlab之一维 gauss 数值积分公式及matlab源代码
  10. 软件工程导论 02章可行性研究
  11. 笔记本电脑触摸板的正确使用方法 --转摘
  12. SAP笔记-abap SD 定价公式(例程,即Formula)
  13. UE4 打包问题总结
  14. Dubbo comsumer 远程调用流程分析
  15. Facemark:使用OpenCV进行面部特征点检测
  16. RF射频信号,高速信号能将电源平面作为参考平面吗?
  17. 全志T3开发板——嵌入式入门学习测试教程(6)
  18. 4章Servlet技术:http头查看+Serverlet入门
  19. Pytorch ModuleNotFoundError: No module named ‘models‘
  20. PHP代码审计18—PHP代码审计小结

热门文章

  1. 入门命令13-字符串查找增强:findstr
  2. 计算机算法和算法复杂度
  3. 【Prison Break】第四天(3.31)
  4. 智能优化算法:蜜獾算法-附代码
  5. python-绘制双轴柱状图
  6. 提取PCA变换后的图像的各主成分(matlab代码)
  7. 【劲峰论道时空分析技术-学习笔记】1 时空数据和时空变量时空过程和时空机理
  8. 【ArcGIS|空间分析|网络分析】5 计算服务区和创建 OD 成本矩阵
  9. 珞珈一号影像辐射定标软件操作方法
  10. Unable to allocate bufptr memory (errval = -1)(CRLF与LF格式转换)问题的解决