原文链接:https://arxiv.org/pdf/1907.10529.pdf

在本文中,作者提出了一个新的分词级别的预训练方法 SpanBERT ,其在现有任务中的表现优于 BERT ,并在问答、指代消解等分词选择任务中取得了较大的进展。对 BERT 模型进行了如下改进:

  1. 提出了更好的 Span Mask 方案,SpanBERT 不再对随机的单个 token 添加掩膜,而是对随机对邻接分词添加掩膜;
  2. 通过加入 Span Boundary Objective (SBO) 训练目标,通过使用分词边界的表示来预测被添加掩膜的分词的内容,不再依赖分词内单个 token 的表示,增强了 BERT 的性能,特别在一些与 Span 相关的任务,如抽取式问答;
  3. 用实验获得了和 XLNet 类似的结果,发现不加入 Next Sentence Prediction (NSP) 任务,直接用连续一长句训练效果更好。

图1展示了模型的原理。

分词掩膜

对于每一个单词序列 X = (x1, ..., xn),作者通过迭代地采样文本的分词选择单词,直到达到掩膜要求的大小(例如 X 的 15%),并形成 X 的子集 Y。在每次迭代中,作者首先从几何分布 l ~ Geo(p) 中采样得到分词的长度,该几何分布是偏态分布,偏向于较短的分词。之后,作者随机(均匀地)选择分词的起点。

根据几何分布,先随机选择一段(span)的长度,之后再根据均匀分布随机选择这一段的起始位置,最后按照长度遮盖。作者设定几何分布取 p=0.2,并裁剪最大长度只能是 10(不应当是长度 10 以上修剪,而应当为丢弃),利用此方案获得平均采样长度分布。因此分词的平均长度为 3.8 。作者还测量了词语(word)中的分词程度,使得添加掩膜的分词更长。图2展示了分词掩膜长度的分布情况。

和在 BERT 中一样,作者将 Y 的规模设定为 X 的15%,其中 80% 使用 [MASK] 进行替换,10% 使用随机单词替换,10%保持不变。与之不同的是,作者是在分词级别进行的这一替换,而非将每个单词单独替换。

分词边界目标(SBO)

分词选择模型一般使用其边界词创建一个固定长度的分词表示。为了于该模型相适应,作者希望结尾分词的表示的总和与中间分词的内容尽量相同。为此,作者引入了 SBO ,其仅使用观测到的边界词来预测带掩膜的分词的内容(如图1)。

具体做法是,在训练时取 Span 前后边界的两个词,值得指出,这两个词不在 Span 内,然后用这两个词向量加上 Span 中被遮盖掉词的位置向量,来预测原词

详细做法是将词向量和位置向量拼接起来,作者使用一个两层的前馈神经网络作为表示函数,该网络使用 GeLu 激活函数,并使用层正则化:

作者使用向量表示 yi 来预测 xi ,并和 MLM 一样使用交叉熵作为损失函数,就是 SBO 目标的损失,之后将这个损失和 BERT 的 Mased Language Model (MLM)的损失加起来,一起用于训练模型。

单序列训练

SpanBERT 还有一个和原始 BERT 训练很不同的地方,它没用 Next Sentence Prediction (NSP) 任务,而是直接用 Single-Sequence Training,也就是根本不加入 NSP 任务来判断是否两句是上下句,直接用一句来训练。作者推测其可能原因如下:(a)更长的语境对模型更有利,模型可以获得更长上下文(类似 XLNet 的一部分效果;(b)加入另一个文本的语境信息会给MLM 语言模型带来噪音。

因此,SpanBERT 就没采用 NSP 任务,仅采样一个单独的邻接片段,该片段长度最多为512个单词,其长度与 BERT 使用的两片段的最大长度总和相同,然后 MLM 加上 SBO 任务来进行预训练

其中主要训练细节是:

  1. 训练时用了 Dynamic Masking 而不是像 BERT 在预处理时做 Mask;
  2. 取消 BERT 中随机采样短句的策略
  3. 还有对 Adam 优化器中一些参数改变。

解读SpanBERT:《Improving Pre-training by Representing and Predicting Spans》相关推荐

  1. 深入理解深度学习——BERT派生模型:SpanBERT(Improving Pre-training by Representing and Predicting Spans)

    分类目录:<深入理解深度学习>总目录 MLM训练方法是BERT拥有自然语言理解能力的核心训练方法.然而,BERT在预训练过程中挑选掩码词的概率是独立计算的,即BERT掩码词的粒度是最小的, ...

  2. 论文解读:Improving Color Reproduction Accuracy on Cameras

    论文解读:Improving Color Reproduction Accuracy on Cameras 今天介绍一篇有关颜色准确性的文章,颜色的准确性是个有点玄妙的问题,因为人眼独特的颜色感知机制 ...

  3. 论文解读:Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge

    论文解读:Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge 论文下载:https:// ...

  4. 论文解读:Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings

    论文解读:Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings    ...

  5. BERT模型系列大全解读

    前言 本文讲解的BERT系列模型主要是自编码语言模型-AE LM(AutoEncoder Language Model):通过在输入X中随机掩码(mask)一部分单词,然后预训练的主要任务之一就是根据 ...

  6. 中文预训练ALBERT模型来了:小模型登顶GLUE,Base版模型小10倍、速度快1倍

    (图片由AI科技大本营付费下载自视觉中国) 作者 | 徐亮(实在智能算法专家)  来源 | AINLP(ID:nlpjob) 谷歌ALBERT论文刚刚出炉一周,中文预训练ALBERT模型来了,感兴趣的 ...

  7. 千亿参数大模型时代,QQ浏览器团队十亿级小模型「摩天」登顶CLUE

    机器之心专栏 作者:Joshua 今年以来,中文 NLP 圈陆续出现了百亿.千亿甚至万亿参数的预训练语言模型,炼大模型再次延续了「暴力美学」.但 QQ 浏览器搜索团队选择构建十亿级别参数量的「小」模型 ...

  8. BERT相关模型汇总梳理

    ©PaperWeekly 原创 · 作者|熊志伟 学校|清华大学 研究方向|自然语言处理 BERT 自 2018 年被提出以来,获得了很大的成功和关注.基于此,学术界陆续提出了各类相关模型,以期对 B ...

  9. Nvidia League Player:来呀比到天荒地老

    最近的深度学习圈子,NLP社区无疑是最热闹的,各种"碾压BERT","横扫排行榜"新闻满天飞,确实人家媒体就是靠点击量吃饭的嘛所以也不要太过苛刻.即便如此,也需 ...

最新文章

  1. 谢尔盖.布林的早期思想_谷歌联合创始人谢尔盖·布林(Sergey Brin)谈人工智能与自动化...
  2. 计算机前端专业术语,学习计算机知识必须懂得50个专业术语
  3. 您现在只需免费与相机捆绑即可购买一个PSVR
  4. python的time库有哪些方法_Python的time模块中的常用方法整理
  5. 西藏最大云计算数据中心明年投入试运营
  6. Ubuntu16.04安装ros残缺包
  7. win10:tensorflow学习笔记(2)
  8. 【动态规划】关于转移方程的简单理解
  9. 强制生成32位arm程序_3. 从0开始学ARM-ARM模式、寄存器、流水线
  10. Hadoop之HDFS常用Shell命令
  11. 计算机网络原理笔记-三次握手
  12. 劝你要看一些有门槛的机会
  13. 转载:如何规范地编写一个MATLAB函数文件
  14. MongoDB学习(黑马教程)-7-数据库MongoDB的集合关联
  15. 电脑模拟收银机_模拟超市收银系统
  16. 达芬奇影视后期处理4K/8K图形工作站、存储完美2021配置推荐
  17. 计算机网络中rtd,一文了解Modern Standby与RTD3
  18. 【GitHub前端练手项目--50天50个项目---商品加载效果-----day08】
  19. murmur3哈希算法
  20. html app签名,html5手写签名

热门文章

  1. poi3.17excel加边框
  2. 标准正态分布变量的累积概率分布函数
  3. 数据结构课设——计算器
  4. 20220729 证券、金融
  5. 字节跳动测试岗位面试题
  6. C语言解决猴子吃桃问题
  7. C#画K线实现加载均线(5日,10日)
  8. 关于密码复杂度至少8位,包含大写字母、小写字母、数字、特殊字符中至少3种组合的正则
  9. uni-app checkbox和switch组件checked属性无效的解决方案
  10. ubuntu22.04卡住死机并且键盘鼠标均无反应