摘要
在本文中,作者提出了一种新的UDA解决方案SSRT (Safe Self-Refinement for Transformer-based domain adaptation)。该方案从两个方面提升域适应性能。首先,作者为SSRT配备了transformer骨干网络。作者发现transformer与简单对抗域适应方法的结合在DomainNet数据集的基准测试中有很好的表现,甚至超过了基于卷积神经网络目前最好的结果,展现出transformer优异的可迁移特征表征能力。其次,为了降低模型崩溃的风险,提高大间隔领域间知识迁移的有效性,作者提出了一种安全的训练机制。具体来说,SSRT利用对目标域数据添加扰动来改进模型参数。由于transformer的模型容量较大,且此类任务预测结果可能有很多噪声,作者设计了一种安全训练机制,以自适应地调整学习参数。作者在几个常用的UDA 基准数据集上评估了SSRT性能,取得了Office-Home上85.43%,VisDA上88.76%和DomainNet上45.2%预测准确率的最好表现。

论文链接:https://arxiv.org/abs/2204.07683
代码链接:https://github.com/tsun/SSRT

1. 引言

无监督域适应 (Unsupervised Domain Adaptation, UDA) 是指利用信息丰富的源域样本来提升目标域模型性能的一种范式,通常与预训练的卷积神经网络一起应用于视觉任务中。在中等规模的分类基准数据集上,例如Office-Home和VisDA,目前UDA方法能取得较好的预测精度;然而在像DomainNet这样的大型数据集上往往表现欠佳,最佳平均准确率仅为33.3% [1]。 基于以上观察,作者将研究重点放在两个方面:

首先,从特征表示方面,作者尝试将vision transformer [2] 集成到UDA中。Vision transformer成功地应用在很多视觉任务中,但其在UDA中的应用研究还很欠缺。作者发现,将ViT-B/16 [2] 与简单对抗域适应(adversarial DA)方法相结合,在DomainNet上可以达到38.5%的平均准确率,优于目前基于ResNet-101 [3] 的最好结果。这表明vision transformer的特征表示具有优异的分辨力和跨域可迁移性。

其次,从域适应方面,需要一个更可靠的模型更新策略来保护学习过程不因较大的域间隔而崩溃。由于vision transformer大模型容量增加了对源域数据过拟合的可能性,因此需要利用目标域数据进行模型正则化。在UDA中,常见的做法是利用目标域数据模型预测结果进行自我训练或强化聚类结构。但当域间隔很大时,其监督信息中可能有很多噪声。因此,需要一种安全的训练机制以避免模型崩溃。

基于上述讨论,在本文中,作者提出了一种新的UDA解决方案SSRT (Safe Self-Refinement for Transformer-based domain adaptation)。SSRT以vision transformer作为网络骨干,利用对目标域数据添加扰动来改进模型参数。具体地说,作者在目标域数据的隐层token序列中加入一个随机偏移,并最小化模型在原始数据和扰动后数据上预测类别概率的KL散度,相当于对相应的隐层施加了一个正则化。此外,由于UDA任务之间差异很大,即使源自同一个数据集,对于大多数任务有效的学习配置 (例如,超参数) 在某些特定任务上也可能会失败。因此,作者在目标域数据上使用模型预测结果的多样性指标来检测模型崩溃。一旦发生崩溃,模型就会恢复到以前存档的状态,并自动调整学习配置。通过这个安全的训练机制, SSRT避免了在域间隔较大的任务上出现显著的性能下降。

2. 方法

2.1 方法框架

图1. SSRT框架

:::

图1介绍了作者提出的SSRT框架。如图所示,该网络由vision transformer骨干网络和分类器组成。Patch Embedding将每个目标域图像转换为一个token序列,其中包括一个特殊的类别token和图像token。紧接着,该序列通过一系列transformer block进行变换。最后分类器接收类别token并输出预测类别标签。作者随机选择一个transformer block,并在其输入token序列上添加一个随机偏移,利用原始数据和扰动后数据对应的预测概率分布差异更新模型。

图2. 安全的训练机制

:::

图2展示了安全训练机制具体流程:基于当前的模型预测结果多样性指标自适应地调整学习参数

2.2. transformer的多层扰动

实验发现,对相对靠近分类器的层施加扰动训练效果更好,但模型崩溃的风险也更高。因此,作者从多个层中随机选择一个进行扰动,这相比只扰动某一层更鲁棒。给定目标域图像 xxx ,设 bxlb^l_xbxl 为其第 lll 个transformer block的输入token序列,则 bxlb^l_xbxl 可以看作是该图像在一个隐空间中的特征表示。由于其维度较高,且目标域数据在特征空间中分布有限,因此对其施加任意方向的扰动是低效的。作者利用另一个随机选择的目标域图像的token序列构造偏移量,扰动之后的特征表示为:

:::

其中 α\alphaα 是标量,[⋅]×[\cdot]_\times[]× 表示梯度不反向传播。

2.3 双向的模型自我更新

px{p}_xpxp~x\tilde{p}_xp~x 分别表示原始数据和扰动后数据的模型预测概率向量,则损失函数为

:::

其中 ω\omegaω 服从伯努利分布B(0.5),FFF 基于预测概率置信度筛选样本,定义为:

:::

LSR\mathcal{L}_\text{SR}LSR 使用置信样本的预测结果更新模型,并约束模型在隐空间中的预测值具有光滑性。值得说明的是,在作者的框架中,梯度同时反向传播到KL散度的两个输入概率。

2.4 基于自适应调整的安全训练机制

当模型发生崩溃时,模型预测结果的多样性也会下降。作者通过检测训练过程中此事件的发生,自适应地调整学习参数。具体地,作者将训练过程划分为以T轮为周期的很多个连续区间,并在每个区间结束时候保存模型状态。算法中的扰动大小和损失函数权重通过一个系数 rrr 调节,定义为

:::

rrr 在一个 TrT_rTr 周期内从0逐渐增长到1。在每个区间结束时,安全机制会检测该区间内有没有多样性下降事件发生。如果有,则重置 rrr 并将模型恢复到上一个保存的状态。那么如何检测多样性下降呢?对于某一轮中的一批目标域样本,作者将模型预测的不重复类别数作为该轮多样性的衡量标准。进一步地,作者将区间分割为不同尺度的子区间,并检查相邻子区间平均多样性值是否有显著下降。详细步骤列在算法1和算法 2中。其中div定义为

:::

:::

简单来说,安全训练机制的目的就是在面对不同任务时,可以根据任务难度和当前模型训练状态自适应调节学习设置。从图3可以看出,对于qdr→clp,使用或未使用该机制性能相当,而对于clp→qdr,使用安全训练机制则可有效地避免了模型崩溃。

图3. 安全训练机制对训练过程及测试集准确率的影响

:::

3. 实验

3.1 在标准数据集上的表现

作者在四个标准的域适应数据集上评估方法性能,包括Office-31,VisDA-2017,DomainNet,和Office-Home。表1列出了DomainNet上不同方法的测试集准确率。总的来说,基于transformer的结果要比基于ResNet的结果好得多,验证了transformer特征的可迁移能力。SSRT取得了45.2%的最好结果,证明了其有效性。更多数据集的实验结果可以参阅原文。

DomainNet上不同方法的测试集准确率

:::

3.2 多层扰动的效果

图4比较了在不使用安全训练机制的情况下,对不同单层施加相同大小扰动训练得到的模型性能。可以看到,最佳层次因任务而异。在一项任务表现好的层,在另一项任务上却可能失效。作者从 {0,4,8} 层中随机选择一层进行扰动,相比而言,只扰动其中一层在DomainNet上训练得到的模型测试集准确率分别下降了1.0%, 1.5% 和1.5%。

图4. 只在不同单层施加相同大小扰动的对比结果

:::

3.3 模型鲁棒性分析

图5展示了通过扰动训练对模型测试阶段鲁棒性的影响。虚线表示模型在目标域测试数据上的真实准确率,柱状线条表示在测试数据不同层施加扰动后模型预测结果准确率的下降程度。 可以看出SSRT相比基准方法具有更强的鲁棒性。即使施加比训练阶段见到的更大的扰动(α=0.4\alpha=0.4α=0.4),模型预测结果仍然相对准确。

图5. 测试阶段模型鲁棒性分析

:::

4. 总结

本文提出了一种新的UDA方案——SSRT。它使用vision transformer作为骨干网络,并通过对目标域数据施加扰动来优化模型参数。为避免模型崩溃,作者提出了一种安全的模型训练机制。在标准域适应数据集上的实验结果验证了其最好的性能。未来工作可以将多个源域结合在一起,或者引入目标域的元信息,以进一步提升域间隔较大的任务上的模型迁移性能。

参考文献
[1] Shuang Li, Mixue Xie, Fangrui Lv, Chi Harold Liu, Jian Liang, Chen Qin, and Wei Li. Semantic concentration for domain adaptation. In ICCV, pages 9102–9111, 2021.
[2] lexey Dosovitskiy, Lucas Beyer, et al. An image is worth 16x16 words: Trans-formers for image recognition at scale. In ICLR, 2021.
[3] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, pages 770–778, 2016.

-The End-

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门-TechBeat技术社区(https://datayi.cn/w/GR4vQ82o)以及将门创投基金。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

CVPR 2022 | 小鹏汽车联合石溪大学提出基于Transformer的安全域适应相关推荐

  1. 小鹏汽车L3自动驾驶方案---基于NVIDIA Xavier

    小鹏汽车今日与芯片巨头NVIDIA(英伟达)及NVIDIA中国相助同伴德赛西威在英伟达全球GTC大会首日签订三方战略相助协议,配合研发适配中国交通情况和驾驶场景的L3级自动驾驶技术. 按照介绍,基于X ...

  2. 小鹏汽车拟挂牌港交所 披露了一些有意思的数据

    6月29日消息,近日港交所发布信息显示,小鹏汽车已通过港交所聆讯,在港上市步入倒计时.小鹏汽车将于6月25日至6月30日招股,预期于7月7日正式在联交所主板挂牌上市. 小鹏汽车宣布其在全球拟发售850 ...

  3. 自动驾驶“稳打地基”,小鹏汽车基于阿里云建自动驾驶AI智算中心算力可达600PFLOPS

    数据驱动是自动驾驶发展的公认方向,也让自动驾驶模型训练成为一头"吃算力"的巨兽.自动驾驶的视觉检测.轨迹预测与行车规划等算法模型,有赖于机器学习海量数据集,但算力的不足让研发速度仍 ...

  4. 拆解小鹏汽车财报:连续三个季度收入下滑,门店月均销量仅为8辆

    11月30日,小鹏汽车(NYSE:XPEV.HK:09868)公布了截至2022年9月30日的2022年第三季度财报.财报显示,小鹏汽车2022年第三季营收68.2亿元,略低于市场预期的68.8亿元, ...

  5. 30~60k | 小鹏汽车3D视觉感知工程师/专家招聘(社招)

    3D视觉工坊致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁.如果你需要我们帮助你发布实习或全职岗位,请添加微信号「CV_LAB」. 公司简介 通过数据驱动智能电动汽 ...

  6. 专访吴新宙:小鹏汽车无人驾驶系统采取逐步演进路线

    https://www.toutiao.com/a6668997361458479620/ 3月13日,原高通自动驾驶负责人吴新宙正式加盟小鹏汽车,出任公司自动驾驶副总裁,全面负责小鹏汽车自动驾驶美国 ...

  7. 特斯拉联合苹果发难 要对小鹏汽车“窃密”员工动手了...

    日前,特斯拉起诉前华人员工窃密一案有了最新进展. 特斯拉起诉的对象是前特斯拉高级工程师曹光植,目前为小鹏汽车及其美国子公司XMotors工作.据双方提交的法庭文件显示,特斯拉提起诉讼称,曹光植窃取了特 ...

  8. AI一分钟 | 小鹏汽车回应前苹果员工窃取商业机密:积极配合相关调查

    ▌苹果前华人工程师涉窃密被捕,小鹏汽车回应 今日(7月11日),有外媒报道称,苹果前雇员张晓浪因窃取商业机密罪被美国联邦调查局逮捕并被起,该员工即将加入小鹏汽车. 小鹏汽车的声明如下: 我们关注到 7 ...

  9. 互联网晚报 | 2月17日 星期四 | 小鹏汽车回应总裁年薪超4亿;B站将上线开播前人脸认证功能;星巴克再次涨价...

    今日看点 ✦ Redmi K50电竞版正式发布:搭载高通骁龙8Gen1,售价3299元起 ✦ 小鹏汽车回应"总裁年薪超4亿":系误解,实为多年累积的股权激励 ✦ B站直播新规:开播 ...

最新文章

  1. 震惊!java中日期格式化的大坑!
  2. java操作ad域 免证书
  3. 简单配置jena在eclipse的开发环境
  4. 关闭aslr oracle,地址空间布局随机化 (Address Space Layout Randomization, ASLR)
  5. linux nacos启动_Nacos集群安装配置
  6. 快手通过港交所聆讯 2020年前三季度经调亏损72亿元
  7. 蔚来汽车回应“十四万元补胎”纠纷:车主未及时报案 除轮胎外底盘也严重受损...
  8. TypeScript笔记 5--变量声明(解构和展开)
  9. node将当前文件上传到服务器,以编程方式将文件从node.js上传到另一个Web服务器...
  10. xy坐标转换经纬度C语言,经纬度与坐标转换公式
  11. php实现给excel(xlsx)文件添加背景图水印
  12. 支付宝开发问题-“您当前注册的企业账号风险等级过高,根据国家相关法律法则及《支付宝服务协议》规定,我司无法为您提供支付服务”
  13. 无人机民航执照、多旋翼、固定翼视距内驾驶员、机长考证试题
  14. PDF改背景和字体颜色
  15. javascript当中options的用法
  16. 439计算机毕业设计
  17. Linux 修改群组文件夹权限
  18. 在校大学生学业预警系统java_学业预警系统
  19. input表单元素required用法
  20. 元宇宙:未来or骗局?

热门文章

  1. 黑马程序员——Java基础:网络编程
  2. GDPU C语言 天码行空5
  3. Javascript身份证号码验证
  4. 你的格局,决定了你的结局
  5. 16-2018.06-物联网技术应用《企业与校园控烟系统的设计》
  6. Unity跟随并环绕移动物体
  7. 那些靠熬夜水续命的年轻人
  8. 智慧数字门店管理系统、门店系统、收银开单、预约服务、会员管理、账单管理、数据统计、商品、库存、美容美体、美甲美睫、医疗美容、美发造型、医疗诊所、中医理疗、宠物服务、美业、经营业务、售卡、交班
  9. php爱心代码,使用CSS画爱心代码实例
  10. 网络游戏中通信消息的组织