distill论文总结(未待续)
目录
- 1. An Empirical Investigation Towards Efficient Multi-Domain Language Model Pre-training
- 1.1 主模型
- 1.2 实验
- 2. Knowledge Distillation for BERT Unsupervised Domain Adaptation
- 2.1 主模型
- 2.2 实验
- 3. K-ADAPTER: INFUSING KNOWLEDGE INTO PRE- TRAINED MODELS WITH ADAPTERS
- 3.1 模型
- 3.2 实验
- 4. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers
- 5. Gradient Regularized Contrastive Learning for Continual Domain Adaptation
- 5.1 主模型
- 5.2 实验
1. An Empirical Investigation Towards Efficient Multi-Domain Language Model Pre-training
标签: multi-domain language; fine-tuned
1.1 主模型
- 训练出一种模型,可以在不同种类的语言模型中进行fine-tuned。
为避免在下一种模型中训练时会遗忘掉上一种训练的模型,引入continual learning ,使用三种方法:
(i) elastic weight con- solidation (EWC)
(ii) learning rate control (LRC)
(iii) experience replay (ER)
1.2 实验
task domain:
- generic domain understanding:
GLUE; QA (from SQuAD);NER (CoNLL) - bio-medical performance:
BC5CDR (NER);Chemprot (RE);BioASQ (QA)
2. Knowledge Distillation for BERT Unsupervised Domain Adaptation
标签:distillation;unsupervised domain-adaptation
2.1 主模型
step1: 在已经标签的数据上进行fine-tuned
step2: 将第一步训练fine-tuned好的bert的weight作为target bert 的初始化,将adversarial learning和knowledge distillation 一起作用在target bert上
step3: 在test encoder上面检验目标数据
BERT模型预处理源域数据,提取相应特征,然后运用distillation技术实现源域知识到目标域知识的迁移,从而达到目标域的情感分类任务。
2.2 实验
数据集:
Airline review dataset;IMDB dataset;Amazon reviews datasets (which contain four domains: books (B), dvds (D), electronics (E) and Kitchen appliances (K))
对于30组cross-domain sentiment classification tasks进行实验
baseline:DistilBERT;RoBERT
3. K-ADAPTER: INFUSING KNOWLEDGE INTO PRE- TRAINED MODELS WITH ADAPTERS
3.1 模型
每次需要添加某种新的"知识"时,又需要重新预训练整个模型,这可能会导致之前"知识"的遗忘。
本文对Roberta模型的参数不微调。对每一种"知识"定义一种新的Adapter,并定义不同的预训练任务,每次训练对应的Adapter。这样每种"知识"都可以通过其对应的Adapter学习到。
Adapter Layer由三部分组成,包括一个全连接层 + N层Transformer Encoder Layer + 一个全连接层。
将Roberta除最后一层以外的每一层的输出,传给Adapter对应的层,(即M层Transformer Layer,则存在K层Adapter Layder)。
对于单个Adapter的情况,最后将Roberta 最后一层的特征与Adapter最后一层的特征拼接,传给预训练任务。
而对于多个Adapter的情况,以两个为例,将Roberta 最后一层的特征与Adapter1和Adapter2的最后一层的特征拼接,传给预训练任务。
实验时,采用N = 2, M = 24, K = {0, 11, 23},可能是每一层或每两层Roberta Transformer Layer过一层Adapter Layer。
文中定义了两种不同的Adapter:
Factual Adapter: 在T-REx的数据集上预训练。关系分类任务,输入为句子,输出为整个句子的特征(由Roberta 最后一层的特征和Adapter最后一层的特征拼接而成)。取出其中给定的两个的entity的特征,并过一层pooling layer,最后拼接两个entity的特征,并执行Relation Classification任务。
Linguistic Adapter: 预训练任务,dependency relation prediction,即预测给定句子中每一个单词的父节点位置,输入为句子,输出为整个句子的特征(由Roberta 最后一层的特征和Adapter最后一层的特征拼接而成)。对于每一个单词的特征,接一个线性层,完成多分类任务。
3.2 实验
knowledge-specific adapter
在三个方向上做实验:entity typing, question answering and relation classification
4. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers
模型特点:
只选取teacher和student模型特征抽取的最后一层
蒸馏处主要由两部分构成:
(1) Self-Attention Distribution Transfer:先计算teacher模型和student模型的自注意力得分,由Queries和keys通过点积得到,然后通过相对熵来计算teacher模型和student模型的自注意力得分矩阵差异。
(2) Self-Attention Value-Relation Transfer:value关系矩阵由vlaue向量点积得到(点积的作用:将不同维度的value向量转换为相同维度大小的关系矩阵),也通过相对熵来衡量teacher模型和student模型之间的差异。
(3)所以loss就是这两者之和,为:
在teacher模型和student模型上引入助教中间模型(Teacher Assistant)来提升迁移效率:先将大模型压缩成中间大的一个模型,然后用这个中间模型最终压缩成小的模型。
5. Gradient Regularized Contrastive Learning for Continual Domain Adaptation
标签:Contrastive Learning;Domain Adaptation
5.1 主模型
使用Gradient Regularized Contrastive Learning来解决domain shifts和catastrophic forgetting
- 使得 Contrastive loss的梯度不去增加在具有很强区分学习能力的domain上训练出来的loss
- 新domain不去增加旧domain训练出来的loss
5.2 实验
由于是图像处理,可以先排除
distill论文总结(未待续)相关推荐
- EDAS提交论文字体未嵌入
一.深夜更一波,刚刚在EDAS提交论文,提示格式不通过,说我有字体未嵌入.但是之前一直都没有问题,这次只是在LaTeX中嵌图的时候把eps换成PDF了.所以问题应该是出在我的PDF图里,里面有字体未被 ...
- 【双目论文整理 未完】值得一读的双目论文整理
背景 双目研究了有一段时间,实际也碰到了很多问题,读了很多论文,整理一下有特别意义的一些论文,相当于做个思路的整理.很多论文都有一些特别的创新点,但是没有整合起来让我有些遗憾. 接下来没列举的论文并不 ...
- 【论文】未:考虑出行距离和时延的基于小区的动态拥塞定价方案
解读A cell-based dynamic congestion pricing scheme considering travel distance and time delay 摘要 该研究引入 ...
- IEEE论文检测的字体未嵌入问题
IEEE论文检测的字体未嵌入问题 EDAS系统上传IEEE格式论文字体未嵌入 PDFCreator软件实现字体嵌入字体!!! EDAS系统上传IEEE格式论文字体未嵌入问题解决方案 EDAS系统上传I ...
- 论文不公开代码,应该被直接拒稿?
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 论文代码是否应该公开已是争论已久的问题,有从业者呼吁通过代码提交减 ...
- ACL 2018最佳论文公布!计算语言学最前沿研究都在这里了
国际计算语言学协会 (ACL,The Association for Computational Linguistics),是世界上影响力最大.最具活力的国际学术组织之一,其会员遍布世界各地.ACL ...
- 在职计算机答辩没有通过,在职研究生论文答辩没通过可以重新申请吗?
论文答辩是在职研究生考试的学员,只有通过了论文答辩才能拿到硕士学位证书.但是一些学员在进行论文答辩的时候总会出现一些状况,致使论文答辩不能顺利通过.那么,在职研究生论文答辩没通过可以重新申请吗? 在职 ...
- 近20年3867篇AI论文大调研:有缺陷的指标被滥用,好的指标被忽视
来源:AI科技评论 本文约5400字,建议阅读6分钟. 论文调查告诉你评估机器学习模型中的不足. "用于评估AI和机器学习模型的常用指标不足以反映这些模型的真实性能",来自维也纳医 ...
- 顶会抄顶会?SIGIR论文作者回应质疑,ACM主席已介入
机器之心报道 机器之心编辑部 被指责抄袭的作者亲自下场分辨,却被反驳「漏洞百出」,顶会抄顶会的故事还没有最终定论. 上周,一位 Reddit 网友曝出,一篇 SIGIR 2019 的论文疑似抄袭,论文 ...
最新文章
- 回头再学Asp.net系列--基础篇(一)
- 【LuoguP33294123】[ZJOI2011]最小割[CQOI2016]不同的最小割
- 解决prometheus k8s.gcr.io/addon-resizer:1.8.4镜像无法下载的问题
- Cisco堆叠配置步骤+链路聚合实例
- 认识死锁之生产者与消费者
- (八):构建WineLib DLL
- 关于不使用web服务实现文本框自动完成扩展
- 【元胞自动机】基于matlab激进策略元胞自动机三车道(开放辅路,软件园影响)交通流模型【含Matlab源码 1298期】
- 2022海亮SC游记
- html+css基础教程入门篇之css选择器详细解读
- Euclid 欧几里得算法(c语言递归版)
- 代码管理和编辑工具Source Insight 4.0使用介绍
- Ubuntu内核版本的降级
- html哭脸字符,科学网—Unicode中的符号 - 丁祥欢的博文
- VirtualBox 虚拟机上网配置-实现多台虚拟机局域网独立ip,可连接外网
- 计算机毕业设计JAVA前行国家公务员模拟笔试系统mybatis+源码+调试部署+系统+数据库+lw
- 还在为Excel合并单元格导致的各种问题烦恼吗?这里一起解决
- 网络音乐盒CE欧盟认证详解
- V90伺服电机仿真程序 profinet通讯报文3控制伺服
- 华为OD机试真题(Java),吃到最多的刚好合适的菜(100%通过+复盘思路)
热门文章
- EasyExcel导出Excel指定属性列
- Pinta 1.0发布
- 牛客练习赛60C 操作集锦(DP)
- 今天吃什么转盘小程序开发制作功能介绍
- Excel 2010 VBA 入门 100 将xls格式工作簿批量转换为xlsx格式
- Ehcache二级缓配置永不过期,缓存失效问题 ---- 原因没有加载ehcache.xml配置文件,加载了默认的ehcache-failsafe.xml配置文件
- 按键精灵读取github page 网页,实现脚本远程控制功能
- java web inf_JavaWeb - 访问 WEB-INF 资源几种方式
- python自动抢单_【Python成长之路】基于sikuli jar包,实现淘宝自动抢单功能(1)...
- 批量提取文件创建时间_文件列表提取软件的使用