Generalist: Decoupling Natural and Robust Generalization
通过原始图片在训练过程出的模型会受到敌对样本的干扰,这种问题虽然通过对抗训练增加了抵抗敌对样本的鲁棒性,但也损失了一部分自然泛化的能力。为了解决这个问题,我们将自然泛化和鲁棒泛化与联合训练解耦,并为每个训练制定不同的训练策略。具体来说,我们没有将这两个最小化泛化错误的全局损失,而是提出了一个称为Generalist的双专家框架,在这个框架中,我们同时用任务感知策略训练基础学习者,以便他们能够专注于自己的领域。在训练过程中,按间隔收集并组合基础学习者的参数,形成一个全局学习者。然后将全局学习者作为初始化参数分配给基础学习者。从理论上讲,我们证明了一旦基础学习者受过良好的训练,Generalist的风险就会降低。大量的实验验证了Generalist在自然例子上实现高精度的适用性,同时对对抗性的例子保持相当大的鲁棒性。
问题
通过原始图片在训练过程出的模型会受到敌对样本的干扰,这种问题虽然通过对抗训练增加了抵抗敌对样本的鲁棒性,但也损失了一部分自然泛化的能力。
当最坏情况下扰动图像的误差减小时,未扰动图像的误差存在不期望的增加
解决方法
之前的一些工作专注于:例如合并额外的标记/未标记数据或放松扰动的大小,以产生合适的对抗性例子,以便更好的优化。对于自然泛化和鲁棒泛化之间的权衡,以前的方法都在联合训练框架中努力寻找一个能够满足这两个目标的最佳点。
我们的方法:这些工作都集中在用于训练的数据上,而我们建议从本文中的训练范式的角度来解决权衡问题。
我们将对抗性训练的目标函数解耦为两个子任务:一个用于自然示例分类,另一个用于对抗性示例分类。对于每个子任务,我们在具有特定任务配置的自然/对抗性数据集上训练基础学习者,同时共享相同的模型架构。在训练过程中,收集并组合基础学习者的参数,形成一个全局学习者,然后将其作为初始化参数分配给基础学习者进行继续训练。
我们提出的Generalist充分利用特定任务的信息来单独训练基础学习者,使每个子任务得到更好地解决。
理论上,我们证明,如果基础学习者受过良好的训练,最终的全局学习者保证有一个较低的风险。对于每个任务,训练策略的每一个细节(如优化方案)都可以完全定制,因此每个基础学习者可以更好地探索其领域的最优轨迹,而全局学习者可以充分利用所有基础学习者的优点。
相关工作
Standard Adversarial Training
[论文笔记] Projected Gradient Descent (PGD) - 知乎 (zhihu.com)
Multi-Task Learning and Meta-Initialization
收藏|浅谈多任务学习(Multi-task Learning) - 知乎 (zhihu.com)
Generalist框架
优化基础学习者θa在其分配的数据分布Da中的参数和将全局学习者θg的参数分配给所有基础学习者。由于我们只关注于识别自然的例子和敌对的例子,所以任务的总数W被设置为两个。
Task-aware Base Learners
具体来说,在这个过程中,基础学习者fθn和fθr被分配不同的子问题,只需要访问自己的数据分布。
请注意,两个基础学习者的工作方式是互补的,这意味着参数的更新在基础学习者之间是独立的,而全局学习者总是收集两个基础学习者的参数。损失函数也可以是特定于任务的,并分别应用于每个基础学习者。在实践中,我们选择交叉熵作为ℓ1和ℓ2的替代损失,因为它很简单,但足够好。
所以每个基础学习者的子问题被定义为:
Initialization from the Global Learner
在最初的训练期间,基础学习者的工具性较少,因为他们没有得到充分的学习。
直接初始化基础学习者的参数可能会误导训练过程,并在混合时进一步积累偏差。
因此,我们从一开始就保留了t’epoch来完全训练基础学习者,而只是通过指数移动平均优化来聚合基础学习者的搜索轨迹上的状态。这时并不会把得到的全局学习者的参数赋值给基础学习者。
然后,当每个基础学习者在其领域得到良好的训练时,他们从每个c个时代的全局学习者的参数中学习一个初始化。
把全局学习者的参数分别赋给两个基础学习者之后,基础学习者包含不属于自己任务的参数信息,提高泛化能力。
理论分析
细节请看原文附录推导
考虑一种算法为两个基学习者生成状态θ1和θ2的轨迹,两个基学习者在其相应的损失函数ℓ1,ℓ2上的遗憾为
上述不等式表明,任何有利于减少每个任务误差的策略,使RT更小,都会降低全局学习者的误差界。
结果
消融
每个学习者定制策略
如上所述,与标准的联合训练框架相比,Generalist的主要优势之一是,每个基础学习者都能够自由地为自己的任务定制相应的策略,而不是对所有任务使用相同的策略。在这部分中,我们研究了Generalist在与不同的技术合作时是否表现得更好。
Weight Averaging
这种技术在联合训练框架中并不能同时提高准确性和鲁棒性。
结果如图4 (a).所示我们在NT(NT_only)或AT(AT_only)或两者(NT+AT)中使用WA。总体而言,结果证实了两个基础学习者利用WA后,全局学习者的表现可以进一步提高。
NT_only的标准测试精度继续提高,但以牺牲防御攻击能力的下降为代价。一个可能的原因是,WA含蓄地控制了基础学习者的学习速度。事实上,在其子任务中,有学习WA的基础学习者比没有学习WA的基础学习者要快得多,这意味着快学习者与慢学习者不一致。
Different Optimizers
总结
在本文中,我们提出了一个名为多面手的双专家框架来改进自然泛化和鲁棒泛化之间的权衡问题,它训练两个负责互补领域的基础学习者,并收集他们的参数来构建一个全局学习者。通过与联合训练范式的解耦,每个基础学习者都可以使用基于数据分布的定制策略。我们提供了理论分析来证明任务感知策略的有效性,并广泛的实验表明,多才手更好地减轻了准确性和鲁棒性的权衡。
Generalist: Decoupling Natural and Robust Generalization相关推荐
- CVPR 2018 paper ---object detection
转载:https://blog.csdn.net/qq_34848537/article/details/82968217 参考链接 CVPR 2018 论文解读集锦(9月27日更新) CVPR 20 ...
- CVPR 2018 paper
CVPR 2018 参考链接 CVPR 2018 论文解读集锦(9月27日更新) CVPR 2018 open access Paperlist Embodied Question Answering ...
- 【AI 顶会】NIPS2019接收论文完整列表
NeurIPS2019 NeurIPS 2019的论文结果已经出炉, 包括了36篇oral和164篇spotlights共1428篇论文.可以看到论文的主题还是以深度学习.神经网络.图.优化.通用性. ...
- 【NIPS2018】Spotlight及Oral论文汇总
nips2018 spotlight (168篇)和Oral(30篇)是会议中较为出色的论文,(点击论文可以查看对应摘要和链接) 1.Oral [神经元容量]On Neuronal Capacity ...
- NIPS 2018 接收论文list 完整清单
NIPS2018 接收论文包括poster.tutorial.workshop等,目前官网公布了论文清单: https://nips.cc/Conferences/2018/Schedule Post ...
- 【NIPS 2018】完整论文下载链接
NeurIPS2018的论文已经开放下载,本文总结了论文的pdf页面.直接点击对应论文即可访问对应的pdf下载页面. 如果希望Batch->所有论文链接 [1] Efficient Algori ...
- 2020年 ICLR 国际会议最终接受论文(poster-paper)列表(一)
来源:AINLPer微信公众号(点击了解一下吧) 编辑: ShuYini 校稿: ShuYini 时间: 2020-01-22 2020年的ICLR会议将于今年的4月26日-4月30日在Mil ...
- 2020年 ICLR 国际会议最终接受论文(poster-paper)列表(二)
来源:AINLPer微信公众号(点击了解一下吧) 编辑: ShuYini 校稿: ShuYini 时间: 2020-02-21 2020年的ICLR会议将于今年的4月26日-4月30日在Mil ...
- 人工智能 | ShowMeAI资讯日报 #2022.06.05
ShowMeAI日报系列全新升级!覆盖AI人工智能 工具&框架 | 项目&代码 | 博文&分享 | 数据&资源 | 研究&论文 等方向.点击查看 历史文章列表, ...
最新文章
- 骑摩托的蒙娜丽莎 - 曼妙风骚的花式慢跑算法
- Windows Server 2012 从入门到精通系列之如何提高DC持续性?
- 【组合数学】指数生成函数 ( 指数生成函数性质 | 指数生成函数求解多重集排列 )
- C++用FindFirstFile、FindNext递归遍历硬盘的文件
- 笔记整理-信息系统开发基础-软件测试-模糊测试
- ci发什么音标_48个国际音标发音舌位图
- LeetCode 453. 最小移动次数使数组元素相等(数学)
- linux远程工具_【linux实操3.1】linux远程连接工具Secure的使用
- tomcat使用线程池配置高并发连接
- Android WebView 示例
- 微信无法绑定手机号的解决方案
- 用CSS来实现一些动画在vue中使用之流星滑过(3)
- 爱乐活改版未断根,改版后不伦不类
- cx_Oracle报错“DPI-1047: Cannot locate a 64-bit Oracle Client library”
- ARB_precision_hint_fastest,ARB_precision_hint_nicest 的意义,作用
- Excel - 字符串处理函数:LEFT, RIGHT, MID, LEN 和 FIND
- LightOJ 1197 Help Hanzo
- Win10 中查看笔记本电脑电池信息
- web前端面试总结(自认为还算全面哈哈哈哈哈!!!!)
- C语言校验 checksum