贴一下汇总贴：论文阅读记录

论文链接：《Marginal Utility Diminishes: Exploring the Minimum Knowledge for BERT Knowledge Distillation》

一、摘要

最近，知识蒸馏（KD）在 BERT 压缩方面取得了巨大成功。研究人员发现 BERT 隐藏层中包含的丰富信息有利于学生的表现，而不是像传统 KD 那样只从教师的软标签中学习。为了更好地利用隐藏知识，一种常见的做法是强迫学生以分层的方式深度模仿老师所有令牌的隐藏状态。然而，在本文中，我们观察到虽然提炼教师的隐藏状态知识 (HSK) 是有帮助的，但随着提炼出更多的 HSK，性能增益（边际效用）会迅速减少。为了理解这种影响，我们进行了一系列分析。具体来说，我们将BERT的HSK分为深度、长度和宽度三个维度。我们首先研究各种策略来为每个单一维度提取关键知识，然后联合压缩三个维度。通过这种方式，我们表明 1) 学生的成绩可以通过提取和蒸馏关键的 HSK 来提高，2) 使用一小部分 HSK 可以达到与广泛的 HSK 蒸馏相同的性能。基于第二个发现，我们进一步提出了一种有效的 KD 范式来压缩 BERT，它不需要在学生训练期间加载教师。对于两种学生模型和计算设备，所提出的 KD 范式使训练速度提高了 2.7 倍-3.4 倍。可以通过提取和蒸馏关键的 HSK 来提高性能，并且 2) 使用一小部分 HSK 可以获得与广泛的 HSK 蒸馏相同的性能。基于第二个发现，我们进一步提出了一种有效的 KD 范式来压缩 BERT，它不需要在学生训练期间加载教师。对于两种学生模型和计算设备，所提出的 KD 范式使训练速度提高了 2.7 倍-3.4 倍。可以通过提取和蒸馏关键的 HSK 来提高性能，并且 2) 使用一小部分 HSK 可以获得与广泛的 HSK 蒸馏相同的性能。基于第二个发现，我们进一步提出了一种有效的 KD 范式来压缩 BERT，它不需要在学生训练期间加载教师。对于两种学生模型和计算设备，所提出的 KD 范式使训练速度提高了 2.7 倍-3.4 倍。

二、结论

在这篇文章中，我们研究了在BERT KD中HSK的压缩。我们将BERT的HSK分成三个维度，并为每个维度探索一系列压缩策略。在此基础上，我们共同压缩三个维度，发现用很小一部分的HSK，学生就能达到与提炼全尺度知识相同甚至更好的表现。基于这一发现，我们提出了一种新的范式来提高BERT KD的训练效率，这种范式不需要在训练过程中加载教师模型。实验表明，对于两种学生模型和两种CPU和GPU设备，训练速度可提高2.7×3.4×4。

本研究中调查的大多数压缩策略都是启发式的，仍有改进的余地。因此，我们未来工作的一个方向可能是设计更先进的算法，在BERT KD中搜索最有用的HSK。此外，由于预训练阶段的HSK蒸馏比特定任务蒸馏耗时几个数量级，预训练蒸馏的边际效用递减效应也是一个值得研究的问题。

三、模型

Single-Dimension Knowledge Compression：
对模型剪枝的研究表明，模型中的结构单元具有不同的重要性水平，不重要的结构单元可以在不影响性能的情况下被删除。

具体感觉也看不明白，还是得对知识工程有进一步的了解深入才能更好地了解这篇文章，有关这个一维知识压缩，感觉是有点像主成分分析那味儿。

【论文泛读121】边际效用递减：探索BERT知识蒸馏的最小知识相关推荐

【论文泛读76】将来自bert的提取信息和多种嵌入方法与深度神经网络集成在一起，以进行幽默检测
贴一下汇总贴:论文阅读记录论文链接:<Integrating extracted information from bert and multiple embedding methods wi ...
【论文泛读】 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
[论文泛读] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift ...
【论文泛读】 Deep Learning 论文合集
[论文泛读] Deep Learning 论文合集文章目录 [论文泛读] Deep Learning 论文合集 Batch Normalization: Accelerating Deep Netw ...
【论文泛读】 ResNet：深度残差网络
[论文泛读] ResNet:深度残差网络文章目录 [论文泛读] ResNet:深度残差网络摘要 Abstract 介绍 Introduction 残差结构的提出残差结构的一些问题深度残差网络 ...
云计算中微服务相关论文泛读
以下是最近对于云计算中微服务系统调度论文的泛读,欢迎一起探讨问题,如需要论文请私聊. Amoeba: QoS-Awareness and Reduced Resource Usage of Micro ...
方面级情感分析论文泛读02：Syntax-Aware Aspect-Level Sentiment Classification with Proximity-Weighted Convolution
提示1:原文链接提示1:代码链接文章目录前言一.论文信息二.笔记要点 2.1. 目前存在的问题 2.2. 目前解决方法: 2.3.本文方法和创新点 2.4. 实验效果 2.5. 模型结构 2 ...
【论文泛读】Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks
Easing Embedding Learning by Comprehensive Transcription of Heterogeneous Information Networks [2018 ...
ICRA2017三篇论文泛读
1.Convergence and Consistency Analysis for a 3-D Invariant-EKF SLAM(泛读)(ICRA2017)引用 9 摘要翻译: 在这篇文章中,我 ...
论文泛读记录(多模情感分析/探测；厌恶语音探测；属性级情感分析；CVPR2022和ACL2022 三元组/对比学习/视觉语言预训练/机器翻译/预训练模型/机器阅读理解)
文章目录 1.1 CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation Fus ...

【论文泛读121】边际效用递减：探索BERT知识蒸馏的最小知识

一、摘要

二、结论

三、模型

具体感觉也看不明白，还是得对知识工程有进一步的了解深入才能更好地了解这篇文章，有关这个一维知识压缩，感觉是有点像主成分分析那味儿。

【论文泛读121】边际效用递减：探索BERT知识蒸馏的最小知识相关推荐

最新文章

热门文章