贴一下汇总贴:论文阅读记录

论文链接:《Marginal Utility Diminishes: Exploring the Minimum Knowledge for BERT Knowledge Distillation》

一、摘要

最近,知识蒸馏(KD)在 BERT 压缩方面取得了巨大成功。研究人员发现 BERT 隐藏层中包含的丰富信息有利于学生的表现,而不是像传统 KD 那样只从教师的软标签中学习。为了更好地利用隐藏知识,一种常见的做法是强迫学​​生以分层的方式深度模仿老师所有令牌的隐藏状态。然而,在本文中,我们观察到虽然提炼教师的隐藏状态知识 (HSK) 是有帮助的,但随着提炼出更多的 HSK,性能增益(边际效用)会迅速减少。为了理解这种影响,我们进行了一系列分析。具体来说,我们将BERT的HSK分为深度、长度和宽度三个维度。我们首先研究各种策略来为每个单一维度提取关键知识,然后联合压缩三个维度。通过这种方式,我们表明 1) 学生的成绩可以通过提取和蒸馏关键的 HSK 来提高,2) 使用一小部分 HSK 可以达到与广泛的 HSK 蒸馏相同的性能。基于第二个发现,我们进一步提出了一种有效的 KD 范式来压缩 BERT,它不需要在学生训练期间加载教师。对于两种学生模型和计算设备,所提出的 KD 范式使训练速度提高了 2.7 倍-3.4 倍。可以通过提取和蒸馏关键的 HSK 来提高性能,并且 2) 使用一小部分 HSK 可以获得与广泛的 HSK 蒸馏相同的性能。基于第二个发现,我们进一步提出了一种有效的 KD 范式来压缩 BERT,它不需要在学生训练期间加载教师。对于两种学生模型和计算设备,所提出的 KD 范式使训练速度提高了 2.7 倍-3.4 倍。可以通过提取和蒸馏关键的 HSK 来提高性能,并且 2) 使用一小部分 HSK 可以获得与广泛的 HSK 蒸馏相同的性能。基于第二个发现,我们进一步提出了一种有效的 KD 范式来压缩 BERT,它不需要在学生训练期间加载教师。对于两种学生模型和计算设备,所提出的 KD 范式使训练速度提高了 2.7 倍-3.4 倍。

二、结论

在这篇文章中,我们研究了在BERT KD中HSK的压缩。我们将BERT的HSK分成三个维度,并为每个维度探索一系列压缩策略。在此基础上,我们共同压缩三个维度,发现用很小一部分的HSK,学生就能达到与提炼全尺度知识相同甚至更好的表现。基于这一发现,我们提出了一种新的范式来提高BERT KD的训练效率,这种范式不需要在训练过程中加载教师模型。实验表明,对于两种学生模型和两种CPU和GPU设备,训练速度可提高2.7×3.4×4。

本研究中调查的大多数压缩策略都是启发式的,仍有改进的余地。因此,我们未来工作的一个方向可能是设计更先进的算法,在BERT KD中搜索最有用的HSK。此外,由于预训练阶段的HSK蒸馏比特定任务蒸馏耗时几个数量级,预训练蒸馏的边际效用递减效应也是一个值得研究的问题。

三、模型

Single-Dimension Knowledge Compression:
对模型剪枝的研究表明,模型中的结构单元具有不同的重要性水平,不重要的结构单元可以在不影响性能的情况下被删除。

具体感觉也看不明白,还是得对知识工程有进一步的了解深入才能更好地了解这篇文章,有关这个一维知识压缩,感觉是有点像主成分分析那味儿。

【论文泛读121】边际效用递减:探索BERT知识蒸馏的最小知识相关推荐

  1. 【论文泛读76】将来自bert的提取信息和多种嵌入方法与深度神经网络集成在一起,以进行幽默检测

    贴一下汇总贴:论文阅读记录 论文链接:<Integrating extracted information from bert and multiple embedding methods wi ...

  2. 【论文泛读】 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

    [论文泛读] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift ...

  3. 【论文泛读】 Deep Learning 论文合集

    [论文泛读] Deep Learning 论文合集 文章目录 [论文泛读] Deep Learning 论文合集 Batch Normalization: Accelerating Deep Netw ...

  4. 【论文泛读】 ResNet:深度残差网络

    [论文泛读] ResNet:深度残差网络 文章目录 [论文泛读] ResNet:深度残差网络 摘要 Abstract 介绍 Introduction 残差结构的提出 残差结构的一些问题 深度残差网络 ...

  5. 云计算中微服务相关论文泛读

    以下是最近对于云计算中微服务系统调度论文的泛读,欢迎一起探讨问题,如需要论文请私聊. Amoeba: QoS-Awareness and Reduced Resource Usage of Micro ...

  6. 方面级情感分析论文泛读02:Syntax-Aware Aspect-Level Sentiment Classification with Proximity-Weighted Convolution

    提示1:原文链接 提示1:代码链接 文章目录 前言 一.论文信息 二.笔记要点 2.1. 目前存在的问题 2.2. 目前解决方法: 2.3.本文方法和创新点 2.4. 实验效果 2.5. 模型结构 2 ...

  7. 【论文泛读】Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks

    Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks [2018 ...

  8. ICRA2017三篇论文泛读

    1.Convergence and Consistency Analysis for a 3-D Invariant-EKF SLAM(泛读)(ICRA2017)引用 9 摘要翻译: 在这篇文章中,我 ...

  9. 论文泛读记录(多模情感分析/探测;厌恶语音探测;属性级情感分析;CVPR2022和ACL2022 三元组/对比学习/视觉语言预训练/机器翻译/预训练模型/机器阅读理解)

    文章目录 1.1 CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation Fus ...

最新文章

  1. Vivado下生成及烧写MCS文件
  2. kqueue epoll 边界触发模式的网络编程模型
  3. 最长上升子序列(LIS)
  4. 测试人员在需求阶段应做哪些工作
  5. Xstudio+Bugzilla
  6. boost::endian::detail::is_scoped_enum用法的测试程序
  7. java 匿名 异常_JAVA类(内部类、匿名内部类、异常、自定义异常)
  8. 《计算机科学概论》—第3章3.3节文本表示法
  9. 基于JAVA+Servlet+JSP+MYSQL的交通罚单管理系统
  10. log4j每天产生一日志文件
  11. GC Roots 是什么?哪些对象可以作为 GC Root
  12. Nginx 凭啥并发数可以达到 3w?
  13. 12个有趣的HTML5实例(转)
  14. Netbean UML自动生成类图
  15. Liang Yichen
  16. grok java_Java Grok.match方法代码示例
  17. 下等人薄情,中等人深情,上等人……
  18. win10使用markdownpad2报错 An error occurred with the HTML rendering component. This issue may be fixed b
  19. 金蝶K3开发-工业老单据序时薄增加过滤条件
  20. 【STM32CubeMX安装】

热门文章

  1. Java:重载的理解
  2. android+xposed+实例,Android Studio 上第一个 Xposed 模块(示例代码)
  3. java代码编写出现的陷阱-2:阴沟里翻船
  4. flowable工作流 流程变量_业务流程 BPM、工作流引擎、Flowable、Activiti
  5. 基于KMeans的微博聚类
  6. 上海交通大学2022年计算机考研复试分数线
  7. pdfminer总是无故报错,可能是其他pdf第三方库影响
  8. 创建家庭成员表.sql
  9. HelloWord以及Java程序运行原理
  10. [C++]TscanCode代码扫描工具