1. An Empirical Investigation Towards Efficient Multi-Domain Language Model Pre-training
- 1.1 主模型
- 1.2 实验
2. Knowledge Distillation for BERT Unsupervised Domain Adaptation
- 2.1 主模型
- 2.2 实验
3. K-ADAPTER: INFUSING KNOWLEDGE INTO PRE- TRAINED MODELS WITH ADAPTERS
- 3.1 模型
- 3.2 实验
4. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers
5. Gradient Regularized Contrastive Learning for Continual Domain Adaptation
- 5.1 主模型
- 5.2 实验

1. An Empirical Investigation Towards Efficient Multi-Domain Language Model Pre-training

标签： multi-domain language; fine-tuned

1.1 主模型

训练出一种模型，可以在不同种类的语言模型中进行fine-tuned。
为避免在下一种模型中训练时会遗忘掉上一种训练的模型，引入continual learning ，使用三种方法：
(i) elastic weight con- solidation (EWC)
(ii) learning rate control (LRC)
(iii) experience replay (ER)

1.2 实验

task domain:

generic domain understanding：
GLUE； QA (from SQuAD)；NER (CoNLL)
bio-medical performance:
BC5CDR (NER)；Chemprot (RE)；BioASQ (QA)

2. Knowledge Distillation for BERT Unsupervised Domain Adaptation

标签：distillation；unsupervised domain-adaptation

2.1 主模型

step1: 在已经标签的数据上进行fine-tuned
step2: 将第一步训练fine-tuned好的bert的weight作为target bert 的初始化，将adversarial learning和knowledge distillation 一起作用在target bert上
step3: 在test encoder上面检验目标数据

BERT模型预处理源域数据，提取相应特征，然后运用distillation技术实现源域知识到目标域知识的迁移，从而达到目标域的情感分类任务。

2.2 实验

数据集：
Airline review dataset；IMDB dataset；Amazon reviews datasets （which contain four domains: books (B), dvds (D), electronics (E) and Kitchen appliances (K)）

对于30组cross-domain sentiment classification tasks进行实验
baseline：DistilBERT；RoBERT

3. K-ADAPTER: INFUSING KNOWLEDGE INTO PRE- TRAINED MODELS WITH ADAPTERS

3.1 模型

每次需要添加某种新的"知识"时，又需要重新预训练整个模型，这可能会导致之前"知识"的遗忘。

本文对Roberta模型的参数不微调。对每一种"知识"定义一种新的Adapter，并定义不同的预训练任务，每次训练对应的Adapter。这样每种"知识"都可以通过其对应的Adapter学习到。

Adapter Layer由三部分组成，包括一个全连接层 + N层Transformer Encoder Layer + 一个全连接层。

将Roberta除最后一层以外的每一层的输出，传给Adapter对应的层，(即M层Transformer Layer，则存在K层Adapter Layder)。

对于单个Adapter的情况，最后将Roberta 最后一层的特征与Adapter最后一层的特征拼接，传给预训练任务。

而对于多个Adapter的情况，以两个为例，将Roberta 最后一层的特征与Adapter1和Adapter2的最后一层的特征拼接，传给预训练任务。

实验时，采用N = 2, M = 24, K = {0, 11, 23}，可能是每一层或每两层Roberta Transformer Layer过一层Adapter Layer。

文中定义了两种不同的Adapter:

Factual Adapter: 在T-REx的数据集上预训练。关系分类任务，输入为句子，输出为整个句子的特征(由Roberta 最后一层的特征和Adapter最后一层的特征拼接而成)。取出其中给定的两个的entity的特征，并过一层pooling layer，最后拼接两个entity的特征，并执行Relation Classification任务。
Linguistic Adapter: 预训练任务，dependency relation prediction，即预测给定句子中每一个单词的父节点位置，输入为句子，输出为整个句子的特征(由Roberta 最后一层的特征和Adapter最后一层的特征拼接而成)。对于每一个单词的特征，接一个线性层，完成多分类任务。

3.2 实验

knowledge-specific adapter
在三个方向上做实验：entity typing, question answering and relation classification

4. Minilm: Deep self-attention distillation for task-agnostic compression of pre-trained transformers

模型特点：

只选取teacher和student模型特征抽取的最后一层
蒸馏处主要由两部分构成：
(1) Self-Attention Distribution Transfer：先计算teacher模型和student模型的自注意力得分，由Queries和keys通过点积得到，然后通过相对熵来计算teacher模型和student模型的自注意力得分矩阵差异。

(2) Self-Attention Value-Relation Transfer：value关系矩阵由vlaue向量点积得到（点积的作用：将不同维度的value向量转换为相同维度大小的关系矩阵），也通过相对熵来衡量teacher模型和student模型之间的差异。

（3）所以loss就是这两者之和，为：
在teacher模型和student模型上引入助教中间模型（Teacher Assistant）来提升迁移效率：先将大模型压缩成中间大的一个模型，然后用这个中间模型最终压缩成小的模型。

5. Gradient Regularized Contrastive Learning for Continual Domain Adaptation

标签：Contrastive Learning；Domain Adaptation

5.1 主模型

使用Gradient Regularized Contrastive Learning来解决domain shifts和catastrophic forgetting

使得 Contrastive loss的梯度不去增加在具有很强区分学习能力的domain上训练出来的loss
新domain不去增加旧domain训练出来的loss

5.2 实验

由于是图像处理，可以先排除

distill论文总结（未待续）相关推荐

EDAS提交论文字体未嵌入
一.深夜更一波,刚刚在EDAS提交论文,提示格式不通过,说我有字体未嵌入.但是之前一直都没有问题,这次只是在LaTeX中嵌图的时候把eps换成PDF了.所以问题应该是出在我的PDF图里,里面有字体未被 ...
【双目论文整理未完】值得一读的双目论文整理
背景双目研究了有一段时间,实际也碰到了很多问题,读了很多论文,整理一下有特别意义的一些论文,相当于做个思路的整理.很多论文都有一些特别的创新点,但是没有整合起来让我有些遗憾. 接下来没列举的论文并不 ...
【论文】未：考虑出行距离和时延的基于小区的动态拥塞定价方案
解读A cell-based dynamic congestion pricing scheme considering travel distance and time delay 摘要该研究引入 ...
IEEE论文检测的字体未嵌入问题
IEEE论文检测的字体未嵌入问题 EDAS系统上传IEEE格式论文字体未嵌入 PDFCreator软件实现字体嵌入字体!!! EDAS系统上传IEEE格式论文字体未嵌入问题解决方案 EDAS系统上传I ...
论文不公开代码，应该被直接拒稿？
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达论文代码是否应该公开已是争论已久的问题,有从业者呼吁通过代码提交减 ...
ACL 2018最佳论文公布！计算语言学最前沿研究都在这里了
国际计算语言学协会 (ACL,The Association for Computational Linguistics),是世界上影响力最大.最具活力的国际学术组织之一,其会员遍布世界各地.ACL ...
在职计算机答辩没有通过,在职研究生论文答辩没通过可以重新申请吗?
论文答辩是在职研究生考试的学员,只有通过了论文答辩才能拿到硕士学位证书.但是一些学员在进行论文答辩的时候总会出现一些状况,致使论文答辩不能顺利通过.那么,在职研究生论文答辩没通过可以重新申请吗? 在职 ...
近20年3867篇AI论文大调研：有缺陷的指标被滥用，好的指标被忽视
来源:AI科技评论本文约5400字,建议阅读6分钟. 论文调查告诉你评估机器学习模型中的不足. "用于评估AI和机器学习模型的常用指标不足以反映这些模型的真实性能",来自维也纳医 ...
顶会抄顶会？SIGIR论文作者回应质疑，ACM主席已介入
机器之心报道机器之心编辑部被指责抄袭的作者亲自下场分辨,却被反驳「漏洞百出」,顶会抄顶会的故事还没有最终定论. 上周,一位 Reddit 网友曝出,一篇 SIGIR 2019 的论文疑似抄袭,论文 ...

distill论文总结（未待续）

目录