写在前面

越大的模型总是越好吗? 长期以来,在屠虐各大排行榜的驱动下,NLP players对此问题的答案似乎是肯定的。 从Google于2018年10月发布BERT(base版本为1.1亿个参数)到Salesforce于2019年9月发布的CTRL(16.3亿个参数),直到微软最近发布的T-NLG(170亿个参数),语言模型规模的增长似乎势不可挡。

相反地,NLP社区中也存在推动较小模型发展的趋势,其中的参与者如Hugging Face于2019年10月发布了DistilBERT(参数为0.66亿),Google于2019年9月发布的ALBERT。这不禁让我们思考,这种"David over Goliath"现象的motivation是什么?

第一个主要的答案是成本。训练这些怪兽可能要花费数万美元,尽管大型科技公司能负担得起,而小型公司则相反。 在当前对气候变化的意识提高的前提下,训练导致的环境成本也是不可忽略的。 第二个同样非常关键的原因是速度,谁想要在Google搜索时等待几秒钟? 增加模型大小可能会导致更好的性能,但也会使模型变慢,从而引起用户的极大不满。

在这篇博客文章中,我们讨论了研究小模型的新趋势,并详细介绍了其中的三个

  • DistilBERT from HuggingFace
  • PD-BERT from Google
  • BERT-of-Theseus from Microsoft Asia

彩票假说

语言模型的参数数量之所以增长的原因是,更多的参数将包含更多的信息,这也将导致更好的模型性能。 从这方面考虑,有些人可能会担心,通过从训练完好的模型中随意删除参数来达到压缩模型的效果会严重损害其性能。 换句话说:对于模型预测效果而言,某些参数是否比其他参数重要?

答案是肯定的,MIT的Jonathan Frankle和Michael Carbin在2018年发表了一篇有趣的论文,The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks,将其概念化为彩票假设:在神经网络初始化期间,为网络的参数初始化值时,将随机定义模型参数。

在这个幸运大转盘中,网络的某些部分初始化的值比其他部分更"幸运"。 带有幸运票的子网络具有的初始化值使它们可以更有效地进行训练,即达到最佳参数值,与网络的其余部分相比,这些参数值将在更少的时间内产生良好的结果。 该论文表明,甚至可以使用相同的初始化值将这些子网络与网络的其余部分分开训练,并且在获得更少参数的同时仍可以达到相似的精度。

模型压缩实践

现在我们知道压缩模型是有道理的,那么在实践中我们该如何做呢? 主要有三种常用方法可以做到这一点。

  • 第一个称为量化(quantization),其目的是降低参数精度。 举个例子,当被问及柏林的温度是多少时,你可以说10摄氏度,但这并不完全准确,但为了易于使用,我们将数值取整了。 对于神经网络而言,减少小数位数有助于降低计算和内存需求。
  • 第二种方法称为修剪(pruning ),旨在删除模型的一部分。 例如,它可以用于删除连接或神经元。
  • 第三种方法称为知识蒸馏(knowledge distillation ),它意味着使用现有的预训练模型(教师模型)来训练较小的模型(学生模型)来模仿教师模型。 在这种情况下,模型不会被压缩,但是要获得更小,更快的模型的目标是相同的。 有关这些方法的更多信息,可以参考阅读Rasa一篇非常详尽的博客文章,Compressing BERT for faster prediction。

接下来,我们关注于三个上文提及的模型,以举例说明压缩模型在实践中如何应用。

DistilBERT

论文:DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter
代码: https://github.com/huggingface/transformers

在过去的几个月中,知识蒸馏受到了极大关注,特别是在Hugging Face于2019年10月发布了DistilBERT模型之后。作者将知识蒸馏应用于Google开发的著名BERT模型, DistilBERT的架构类似于原始的BERT基本架构,由12个Transformer编码器构成,但参数减少了40%。

原始的BERT模型经过了两项任务的预训练:Masked Language Model(MLM),即遮掩句子中的单词并要求模型对其进行预测;以及Next Sentence Prediction(NSP),对于两个句子A和B,预测句子B是否在句子A之后。

对于MLM,我们强制模型为实际掩盖的单词以及所有其他单词分配接近真实值的单词概率。 实际上,我们最小化以下MLM损失函数:
−∑w=1Vym,wlog⁡(pm,w)-\sum_{w=1}^{V} y_{m, w} \log \left(p_{m, w}\right)−w=1∑V​ym,w​log(pm,w​)

如果我们只考虑MLM损失,那么我们基本上只会训练一个较小的学生模型,但在教师模型和学生模型之间不会有任何学习。 因此,除了MLM损失外,作者还添加了具有此目的的distillation loss。 掩盖单词时,它会迫使学生模型模仿教师模型的输出概率分布,那么具体是怎么做呢?
−∑w=1Vpm,wTlog⁡(pm,wS)-\sum_{w=1}^{V} p_{m, w}^{T} \log \left(p_{m, w}^{S}\right)−w=1∑V​pm,wT​log(pm,wS​)
其中,pm,wTp_{m, w}^{T}pm,wT​表示由教师模型TTT得到的masked token为词表中第www个单词的概率;pm,wSp_{m, w}^{S}pm,wS​表示由学生模型SSS得到的masked token为词表中第www个单词的概率;

这样,通过最小化这种损失,学生模型的概率分布将趋向于来自老师的模型。最后的训练目标是MLM loss和distillation loss的线性组合。

关于训练数据的选择,DistilBERT是在BERT基础训练集中的子集上进行训练的。 然而,谷歌最近发表的一篇论文表明,即使教师给出无意义的句子(随机单词列表)进行训练也足以使学生获得良好的表现,因为教师模型通过其输出概率分布所提供的信息足够强大。 例如,如果训练句子是“love trash guitar”,而被掩盖的单词是“trash”,则训练后的模型可能会预测“playing”,而不是“trash”,这是学生模型将学习的合理预测结果。 需要注意,这仅适用于蒸馏损失,而不适用于MLM损失,因为对于后者,这等同于训练模型使其无意义。

PD-BERT

论文:Well-Read Students Learn Better: On the Importance of Pre-training Compact Models
代码: https://github.com/google-research/bert

DistilBERT很好地说明知识蒸馏可以帮助构建性能令人满意的小模型。 但是,这是否意味着废弃BERT之类良好的旧式预训练模式? 并不,根据谷歌最近的一篇论文,直接对小模型进行预训练而无需从较大模型进行初始化会带来较好的效果,并显著提高速度。

作者称之为 pre-trained distillation(PD)的新方法过程如下。 像大模型一样,对BERT模型的小版本进行随机初始化和训练,并使用上述的MLM方法。 然后,作者以与DistilBERT相同的方式应用知识蒸馏,以帮助较小的模型向较大的模型学习。 最后可以根据标记的数据集对生成的学生模型进行微调,从而使其专注于特定任务(例如情感分析)。 本文的价值还在于,比较了不同的方法(使用和不使用蒸馏的预训练和微调)。 作者表明,虽然较小模型的经典预训练和微调已经比DistilBERT产生了更好的结果,但在预训练和微调之间添加蒸馏有助于达到更好的结果。

学生模型未使用教师部分初始化的原因是使模型大小具有更大的灵活性。 作者总共发布了4个模型,所有模型均小于BERT基准。 其中最小的模型,即BERT Tiny,仅有440万个参数,比DistilBERT小15倍,比BERT-base小25倍。

与诸如BERT Large之类的大型体系结构相比,这可以将训练时间加速多达65倍,并且我们可以想象到,尽管作者没有提及,推理速度也会优化很多。

BERT-of-Theseus

论文:BERT-of-Theseus: Compressing BERT by Progressive Module Replacing
代码:https://github.com/JetRunner/BERT-of-Theseus

如果不是让学生模型在老师模型学习之后进行模仿,而是让学生和老师同时学习,并且让学生逐步取代老师,会怎么样? 这是微软亚研院于2020年2月发布的最新模型BERT-of-Theseus的设想。

研究者受到著名哲学思想实验「忒修斯之船」的启发:如果船上的木头逐渐被替换,直到所有的木头都不是原来的木头,那这艘船还是原来的那艘船吗?

该方法逐步将 BERT 的原始模块替换成参数更少的替代模块。研究者将原始模型叫做「前辈」(predecessor),将压缩后的模型叫做「接替者」(successor),分别对应 KD 中的教师和学生。工作流程如下图 1 所示:首先为每个前辈模块(即前辈模型中的模块)指定一个替代(接替者)模块;然后在训练阶段中以一定概率用替代模块随机替换对应的前辈模块,并按照新旧模块组合的方式继续训练;模型收敛后,将所有接替者模块组合成接替者模型,进而执行推断。这样,就可以将大型前辈模型压缩成紧凑的接替者模型了。

轻量化、快速化

这是一份不同模型的时间对比,

从性能上看,DistilBERT保留了BERT-base性能的97%,而参数却减少了40%,而Theseus-BERT保留了98.35%,参数也减少了40%。 关于推理速度,就推理速度而言,DistilBERT和Theseus-theseus的速度分别比BERT基于基础的速度高1.6倍和1.94倍。 Theseus-BERT提供了一些其他优点。 像PD-BERT一样,它与模型无关,也可以应用于其他基于神经网络的模型。 训练更快,成本更低,因为它仅依赖于微调,这比DistilBERT所需的从头开始进行预训练要便宜得多。

最后,Theseus的BERT似乎是一个明显的赢家,尽管必须指出,它是在DistilBERT之后4个月和PD-BERT之后6个月出版的。 值得一提的是DistilBERT,它也是该研究领域的先驱模型之一,专注于较小的模型,并且很有可能会影响研究人员朝这个方向探索。

随便唠唠

在这篇文章中,我们介绍了三个最近的模型,分别是DistilBERT,PD-BERT和Theseus-BERT,这些模型比其原始的BERT-base模型小,并且速度显著提高,在大多数任务上的表现都差不多。 回到文章开篇我们讨论的话题,由于目标不同,两种研究趋势(大模型和小模型)并存的可能性更高,大型科技公司将继续努力使用大量资源寻求最佳模型,而其他较小的公司及其研究团队将更多地关注可用于解决业务问题的较小模型。 在理想的世界中,我们甚至可以设想较小的模型比大型模型的性能要好,Google的ALBERT就是一个例子。

更小的模型,迈向更快更环保的NLP相关推荐

  1. EfficientNetV2:更小,更快,更好的EfficientNet

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者 | Mostafa Ibrahim 编译 | ronghuai ...

  2. EfficientNetV2:训练速度快了5~10x,更小,更快,精度更高的EfficientNet

    本文转自AI公园. 作者:Mostafa Ibrahim 编译:ronghuaiyang 导读 相比于之前的SOTA,训练速度快了5~10x,而且性能更高. 论文链接:https://arxiv.or ...

  3. 最新 | 更小、更快、更强!EfficientNetV2:Smaller-Faster-Better

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:AI公园 | ronghuaiyang编译 https://towardsdatascience.com/go ...

  4. EfficientNetV2震撼发布!87.3%准确率!模型更小,训练更快!谷歌大脑新作

    EfficientNetV2: Smaller Models and Faster Training paper: https://arxiv.org/abs/2104.00298 code(官方TF ...

  5. 高效深度学习:让模型更小、更快、更好!

    作者 | 太子长琴 整理 | NewBeeNLP 自从 AlexNet 在 ImageNet 上大放异彩后,图像就进入了预训练时代,随后 VGGNet,Inception,ResNet 不断取得新的 ...

  6. 时隔两年,EfficientNet v2来了!更快,更小,更强!

    导读 谷歌在EfficientNet的基础上,引入了Fused-MBConv到搜索空间中:同时为渐进式学习引入了自适应正则强度调整机制,组合得到了EfficientNetV2,它在多个基准数据集上取得 ...

  7. EfficientNet v2网络学习记录--更小更快

    论文地址:2021 CVPR --Google <EfficientNetV2: Smaller Models and Faster Training> 亮点: 使用训练感知神经结构搜索和 ...

  8. 蜂鸟视图JS SDK v3.0:五大亮点,打造更小更快的可视化地图应用

    近期,蜂鸟视图发布了FengMap JavaScript SDK v3.0版本,该版本在不减少任何功能的情况下,对原有的渲染内核进行了优化,使得数据加载性能提升了30%,渲染性能提升了25%,包体大小 ...

  9. Android系统----AS 3.1 支持的新版 D8,让你的编译更快、更小、更顺滑

    一.前言 Android Studio 3.1 稳定版,在前几天正式发布了. 其中包含了 D8 Dex Compiler,它在 AS3.1 中,被设置为了默认的 dex 编译器. 那么今天就来聊聊,什 ...

最新文章

  1. nginx和mysql链接_nginx转发mysql连接
  2. Mybatis中 $ 和 # 千万不要乱用!
  3. Codeforces #536 div2 E (1106E)Lunar New Year and Red Envelopes (DP)
  4. html无限添加元素,jquery--html【添加元素】
  5. pandas之表格样式
  6. matplotlib ----- 多子图, subplots
  7. 有观赏性的c语言程序,设计一个C语言程序,对以孩子链表表示的树计算该树的深度- 一起装修网...
  8. python编程语言集合_【python】编程语言入门经典100例--12
  9. 什么是云计算管理平台
  10. 天天在做的数据可视化,才是企业数字化转型的关键
  11. ios是什么?ios有什么特点?
  12. RK3568平台开发系列讲解(安卓篇)WakeLock分析
  13. 技术分享:国民远控向日葵如何通过BBR算法提升远控体验?
  14. 写给你看的Python Web 岗位分析,求职必备
  15. 汽车租赁系统 ssm
  16. GPRS模块功能简介(I)SGSN功能
  17. 《幸福人生 从心开始》讲座参后感
  18. 风帆头,旗帜服,“背”在肩上的古国王印
  19. LDA模型,获取所有的文档-主题分布(即得到文档对于每个主题的概率分布)并保存
  20. 阿里巴巴mysql集群方案_云原生下,如何实现高可用的MySQL?

热门文章

  1. 风控分析秘籍R-I-S-K
  2. Axure通用web端元件库rplib文件格式+移动端app通用元件库rplib文件格式+电脑端动态可视化图表元件库+数据展示+操作反馈+通用模板+数据录入+列表页+表单页+详情页+通用版布局
  3. java乱码问题详解-值得收藏
  4. Kafka学习之二 Kafka安装和使用
  5. 函数:使用数组名作为函数参数进行操作
  6. Android学习--写一个发送短信的apk,注意布局文件的处理过程!!!
  7. hdu 2602 Bone Collector 解题报告
  8. 效率低的日子怎么办?
  9. SSLOJ 1338.逃亡路径
  10. Pyspark 最近使用的一些有趣姿势的梳理