LegoNet: A Fast and Exact Unlearning Architecture
文章目录
- 精简回忆版
- Related Work
- 1.SISA
- 2.近似遗忘(Approximate unlearning)
- 3.Adapter
- Our Work
- Details
- 架构
- Fixed Encoder
- Multiple Adapters
- Training
- Unlearning
- 与SISA相比
- Future Work
精简回忆版
固定encoder+mutiple adapters
encoder相当于特征提取器,采用预训练模型,在本模型训练过程中encoder不变(固定encoder)。
训练过程:
一开始,初始化adapters 的keys,使其分布近似于Encoding distribution,固定keys。每次找出与样本点距离最近的k个adapters进行预测,最后集成得到结果。
在训练过程中,当每个样本激活其k个最近的adapters时,我们记录用于激活不同adapters的样本集。
Unlearning过程:
当一个训练样本要被删除时,LegoNet定位并重新训练受影响的adapters(k个)以消除样本的影响。
Related Work
1.SISA
在SISA中,随着分片数量的增加,重新训练所涉及的样本会减少,根据经验,性能会显著下降。为了保持可接受的性能,可以对数据进行分片的程度受到严格限制。因此,基于SISA的方法仍然不够有效,特别是在训练数据量很大的情况下。
2.近似遗忘(Approximate unlearning)
与精确遗忘方法相比,近似遗忘方法通常更有效。然而,这种基于梯度的方法受到“凸”条件的限制,因此很难应用于深度神经网络等非凸模型。
3.Adapter
现在流行预训练+微调。
基于预训练模型,adapter 给出了一个新的思路,即能否在模型中插入一些少量的参数,在下游某个任务微调时只对这些参数进行训练,而保持预训练模型原有的参数不变,可以让我们达到和微调整个模型一样的效果。
在《Parameter-Efficient Transfer Learning for NLP》这篇论文中,在Transformer中加入了两个adapter,进行微调时,原来的Transformer的参数都是锁住的,只有adapter层的参数在学习。
adapter层参数量和大模型相比非常少,例如在175B的GPT3中使用LoRa,需要训练的参数只要万分之一。因此训练成本大幅降低。还可解决持续学习中灾难性遗忘的问题。
Our Work
本文提出了一种采用“固定encoder+mutiple adapters”结构的新型网络。我们固定了LegoNet的编码器(the backbone for representation learning),以减少在遗忘过程中需要重新训练的参数。由于编码器占据了模型参数的很大一部分,因此显著提高了学习效率。然而,固定编码器会导致显著的性能下降。为了补偿性能损失,我们采用了多个adapters的集成,这些adapters是通过编码(即编码器的输出)来推断预测的独立子模型。此外,我们设计了adapters的激活机制,以进一步权衡遗忘效率与模型性能之间的关系。这种机制保证了每个样本只会影响很少的adapters,因此在遗忘过程中,需要重新训练的参数和样本都会减少。
Details
架构
LegoNet由一个固定的编码器和n个独立的adapter组成。
Fixed Encoder
编码器作为LegoNet的主干,是用于表示输入样本的特征抽取器。具体地说,它将样本映射到编码空间。在这里,编码器的结构的选择相对自由。为了处理不同类型的输入,我们可以采用不同的体系结构,如BERT:用于文本任务或ResNet:用于图像任务。
Multiple Adapters
每个adapter都包含一个预设key,以表示其在编码空间中的地址,每个独立的子模型基于encoder 的输出进行预测。通常,每个adapter的子模型只需要简单的结构,例如linear layer。
Training
对于编码器来说,在被LegoNet采用之前,它应该在外部数据上进行预训练,以确保它有足够的表示能力。外部数据最好与目标任务相关,本文中做的图像分类任务,所以pretrain外部数据集用的ImageNet。
我们首先采用蒙特卡洛采样,初始化keys,使adapters的keys的分布与encoder编码空间分布相似。
其中,ξj表示轻微的随机扰动。采用ξj,保证样品信息不直接记录在LegoNet中。初始化后,adapters的keys是固定的。
然后,我们就可以计算每个样本的k近邻adapters,被选择与激活。本文实验中采用l2范数。
在训练过程中,当每个样本激活其k个最近的adapters时,我们记录激活不同adapters的样本集。
这些样本集的大小大约服从均匀分布,因为编码空间中样本密集的地方adapter更多(类似地,样本稀疏的地方adapter更少)。每个adapter样本的平衡有利于子模型的训练质量,因为它减轻了子模型缺乏足够训练数据的情况。此外,它还避免了通过大量样本重新训练子模型,从而简化了后续的学习任务。
这样,每个子模型就训练完成了。
Loss Function:
特别地,独立训练保证了adapter aj只会受到对应样本的影响。
最后的推理由k个adapter集成:
Unlearning
当一个训练样本要被删除时,LegoNet定位并重新训练受影响的adapters(k个)以消除样本的影响。
与SISA相比
假设SISA将训练数据分成5个不相交的分片。然后,SISA采用这5个分片独立训练5个模型。每个模型的体系结构都可以看作是1个encoder连接了1个adapter。而LegoNet为n个adapter共享encoder。
与SISA相比,LegoNet具有更高的遗忘效率。
一方面,LegoNet几乎没有需要重新训练的参数。为了消除一个样本,SISA需要重新训练一个encoder和一个adapter,而LegoNet需要重新训练k个adapter。由于k一般较小,encoder的参数明显大于adapter的参数。encoder的参数甚至比k个adapter的参数还要多。
另一方面,在保持可接受的性能的同时,LegoNet可以进一步减少重新训练样本的数量。假设训练数据有n个样本。对于SISA,每个模型预计训练N/s个样本。对于LegoNet,每个adapter预计训练k×N/n个样本。虽然LegoNet需要重新训练k个adapter来遗忘一个样本,但由于k>>n, LegoNet需要重新训练的样本量k×N/n < n /s。这要归功于激活机制的设计。LegoNet的激活机制是基于编码空间中的距离。与SISA随机分配样本训练模型的方法相比,我们的方法使adapter的学习更集中在编码空间的小区域上。因此,我们的adapter可以有效地保持性能,同时需要更少的样本。
Future Work
- Encoder的改进
- 更好的激活机制。本文中采用的是k近邻。
- 由于LegoNet具有很强的控制样本的影响的能力,除了重新训练(adapter)之外,可能还有好的策略来实现遗忘。
LegoNet: A Fast and Exact Unlearning Architecture相关推荐
- Fast and Practical Neural Architecture Search论文总结
文章目录 目标 方法 搜索空间 模块的多样性 Fast Search 实验 展望 论文地址:https://www.researchgate.net/publication/339554739_Fas ...
- SIGIR2023推荐系统论文集锦
第46届SIGIR2023会议(ACM国际信息检索大会),将于2023年7月23日-7月27日在中国台湾台北召开.SIGIR是中国计算机学会CCF推荐的A类国际学术会议,也是人工智能领域智能信息检索方 ...
- EMNLP 2017 accepted papers
emnlp 接受论文列表地址:http://emnlp2017.net/accepted-papers.html EMNLP 2017共接收323篇论文. 其中216篇是长篇论文,107篇是短篇论文. ...
- EMNLP2017论文
转自:http://blog.csdn.net/m0_37306360/article/details/78720402 emnlp 接受论文列表地址:http://emnlp2017.net/acc ...
- 《预训练周刊》第23期:Smart Bird:解决变换器性能瓶颈的新方法、Prompt:如何提升预训练模型的迁移效果...
No.23 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第23期&l ...
- 金融风控实战—模型可解释之shap
import time import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split imp ...
- SIGMOD 2017论文的摘要与看法
SIGMOD2017 持续更新 3.1 Concurrency并发 ACIDRain: Concurrency-Related Attacks on Database-Backed Web Appli ...
- ICLR 2021 NAS 相关论文(包含Workshop)
ICLR 2021 Workshop 接收 Measuring Uncertainty through Bayesian Learning of Deep Neural Network Structu ...
- 神经架构搜索(NAS)2020最新综述:挑战与解决方案
终于把这篇NAS最新的综述整理的survey放了上来,文件比较大,内容比较多.这个NAS的survey是A Comprehensive Survey of Neural Architecture Se ...
最新文章
- php配置email支持_配置php自带的mail功能
- 在panel中显示一个新的form
- NIPS 2017论文解读 | 基于对比学习的Image Captioning
- ps命令---Linux学习笔记
- [ZJOI2010] 基站选址(线段树优化dp)
- 有什么好一点的方法读jdk源码吗?
- live2d_vue-live2d 看板娘
- Openssl建立CA系统
- 银河麒麟arm64位操作系统卸载jdk及安装jdk
- dicards qualifiers
- arcgis制作分幅图层,并对分幅图进行编号
- Linux之jkd、tomcat、mysql安装
- Postman 接口调试工具 设置中文
- BG架构-kerberos初步学习
- java usb 断开_Android P开发者选项中的USB调试关闭
- 基于Hadoop搭建HA集群网盘系统
- android 5.0 创建多用户 双开多开应用(1)
- turnkey linux
- 污水泵站远程自动化运维系统
- C++练习题20191125
热门文章
- Django编写个人博客(十)博客阅读排行
- 【第4章 】以太网技术
- 苹果开发者 邓白氏号码 免费申请
- iOS 开发----个人开发者帐号升级为公司开发者帐号
- (附源码)Springboot在线问答社区系统 毕业设计061628
- 能源系统建模:安装和使用gcamdata_R package构建GCAM模型输入文件系统
- 国产蓝牙耳机哪个好?2023国产无线蓝牙耳机排名
- Cacti命令执行漏洞分析 (CVE-2022-46169)
- 网络硬盘是什么?虚拟主机又是什么?
- linux中gnome的使用教程,如何定制你的Linux桌面:Gnome 3