总说

对于非监督domain mapping, 要学习的是数据集A到数据集B的一种映射。即GAB可以将A的一个样例映射到B中的一个相似物。人来采用dual learning,提出了训练两个模型,GAB和GBA。使得x(x是A的一个样例)经过GAB,再经过GBA仍旧与x尽量相似,当然对于y是一个B的样例,也有类似。 
这种思想有2017年出了N篇论文。主要有:DiscoGAN[1], DualGAN[1], CycleGAN[3]等等吧。。 
这篇论文的主要贡献:提出一种distance的约束,使得非监督domain mapping可以one sided。我可以只训练一个G_{AB}就够了,不用训练G_{BA}

相关工作

这个总结不错。。。

Adversarial constraints

这个就是最普通的GAN损失。

LGAN(GAB,DB,p^A,p^B)=ExB∼p^B[logDB(xB)]+ExA∼p^A[log(1−DB(GAB(xA)))]

其中, p^A , p^B 分别是A,B数据集的采样出来的离散分布。 
当然,因为是非监督的,所以还有类似的  LGAN(GBA,DA,p^B,p^A) ,反正总共四个网络,联合起来优化就行。

Circularity constraints

这个就是现在特别火的对偶学习了。A的一件东西你通过GAB转换到了B中去,那么这件东西通过GBA转换回来,肯定差不多一样的吧~~ 

所以有:

Lcycle(GAB,GBA,p^A)=Ex∼p^A∥GBA(GAB(x))−x∥1

, 当然一般是两个:

Lcycle(GAB,GBA,p^A)+Lcycle(GBA,GAB,p^B)

Target Domain Identity

LT−ID(GAB,p^B)=Ex∼p^B∥x−GAB(x)∥2

这个主要在 DTN[4]网络用到。(暂时对为什么这有这个约束一脸懵逼,待我看完之后再补充。)

Distance Constraints

先说Adversarial constraints的弱点,这种约束太弱,因为这种mapping会有很多种。这是因为假设GAB将A中的n张图map到B中的n张图,那么对B的这n张图随意加一些扰动,扰动后的图也是一种可以接受的mapping。因此这种mapping空间极大,这种约束是一个很弱的约束。circularity constraint约束的引入是一个加强。毕竟GBA要让加了扰动的B的图映射回去,所以会减少the amount of admissible permutations. 
为了进一步加强约束,Distance Constraints使得映射具有distance perserving的能力。A的两幅图通过GAB映射到B中,那么映射后的两幅图在之间的距离应该保持。

Ldistance(GAB,p^A)=Exi,xj∼p^A|1σA(∥xi−xj∥1−μA)−1σB(∥GAB(xi)−GAB(xj)∥1−μB)|

在实际编程中,这些均值和方差取minibatch的均值方差就行。 
当然类似的有 Ldistance(GBA,p^B) 。 作者论文中只单独用Ldistance(GAB,p^A)或者Ldistance(GAB,p^A), 因此才称是one-sided的~  
这种distance constraints相比cricularity约束,更不容易陷入model collapse.

Self-distance constraints

作者提出这个其实只是为了和cyclegan进行比较,因为cyclegan默认的代码的batchsize=1。啊,那distance gan可是基于2幅图片的啊,所以做作者就将一幅图片分成两半(比如左一半,右一半)从而得到distance约束。

Lself−distance(GAB,p^A)=Ex∼p^A|1σA(∥L(x)−R(x)∥1−μA)−1σB(∥L(GAB(x))−R(GAB(x))∥1−μB)|

其中 μA 和 σA 是domain A中的图片的左右两半的均值和方差,但是 μB 和 σB 类似。

这种self-distance约束其实并不是一个好的约束,至少从实验结果可以看出。


比如在car2car,这是对于一个3D数据集分成A,B。显然GAB是学习这种 角度不变性。这种模型mapping不会涉及到形状的巨大变化,主要是逐点的映射, 貌似Distance+cycle会有较好的效果。而对于car2head,这种具有外观巨大变化,以前的cyclegan是无法处理的(论文中给出cat2dog失败例子),cyclegan只能处理外观几乎一样(horse2zero之类的)。但是可以看到distance约束有更好点的效果。self dist效果不好也是比较容易解释的因为毕竟是单幅图像内部的距离约束。比如是图片的左右部分的距离约束,那么车和人脸不都具有很强的对称性吗?这种单幅图中的距离约束就会不那么work。

参考论文:One-Sided Unsupervised Domain Mapping[5]

参考文献

  1. Learning to Discover Cross-Domain Relations with Generative Adversarial Networks
  2. DualGAN: Unsupervised Dual Learning for Image-to-Image Translation
  3. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
  4. Unsupervised Cross-Domain Image Generation
  5. One-Sided Unsupervised Domain Mapping

比CycleGAN更强的非监督GAN----DistanceGAN相关推荐

  1. 登顶Github趋势榜,非监督GAN算法U-GAT-IT大幅改进图像转换效果

    点击我爱计算机视觉标星,更快获取CVML新技术 近日,GAN的大家族又出一位重量级新成员U-GAT-IT,图像转换效果提升明显,原作者开源代码这两天登顶Github趋势榜,引起极大关注. U-GAT- ...

  2. ECCV 2020 | 比GAN更强,ETH提出新型超分辨率模型SRFlow

    本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载. 选自arXiv 作者:Andreas Lugmayr等 编辑:小舟.魔王 近日,来自苏黎世联邦理工学院计算机视觉实 ...

  3. 专访微软邓力:语音识别与非监督深度学习、增强学习、词嵌入、类脑智能

    在俞栋接受CSDN专访解读基于深度学习的语音识别技术及CNTK开源软件的同时,<解析深度学习-语音识别实践>一书的另一位作者.微软人工智能首席科学家邓力也接受CSDN专访,以另外的视角诠释 ...

  4. SOLOv 2:实例分割(动态、更快、更强)

    SOLOv 2:实例分割(动态.更快.更强) SOLOv2: Dynamic, Faster and Stronger 论文链接: https://arxiv.org/pdf/2003.10152.p ...

  5. UC 伯克利华人一作:卷积让视觉 Transformer 性能更强,ImageNet 继续刷点!

    转自 | 新智元 来源 | arXiv 编辑 | LQ Priscilla Convolutional stem is all you need! Facebook AI和UC伯克利联手,探究视觉Tr ...

  6. 超越Swin Transformer!谷歌提出了收敛更快、鲁棒性更强、性能更强的NesT

    [导读]谷歌&罗格斯大学的研究员对ViT领域的分层结构设计进行了反思与探索,提出了一种简单的结构NesT,方法凭借68M参数取得了超越Swin Transformer的性能. 文章链接:htt ...

  7. 时隔两年,EfficientNet v2来了!更快,更小,更强!

    导读 谷歌在EfficientNet的基础上,引入了Fused-MBConv到搜索空间中:同时为渐进式学习引入了自适应正则强度调整机制,组合得到了EfficientNetV2,它在多个基准数据集上取得 ...

  8. CenterNet2:比强更强的二阶段网络,COCO成绩最高达到56.4mPA

    摘要 我们开发了两阶段目标检测的概率解释.我们表明,这种概率解释激发了许多常见的经验培训实践.它还建议更改两阶段检测管道.具体来说,第一阶段应该推断适当的对象与背景可能性,然后应该告知检测器的总体分数 ...

  9. (一)一种硬盘故障预测的非监督对抗学习方法(2019-西安电子科技大学学报)

    内含动画的PPT已经上传,可以在我上传的资源里看到,可免费下载 该篇论文主要围绕"异常检测+硬盘故障预测+GAN+非监督"展开,以下是个人对整篇文章脉络的整理和理解. 文章目录 * ...

最新文章

  1. 影响国家安全的四项新兴技术
  2. 全球公有云巨头:亚马逊 AWS
  3. 面试可能遇到的问题总结【二】
  4. Java集合—ArrayList底层原理
  5. 微软 VS Code 或将取代 Visual Studio!
  6. 讯飞语音输入法免费版
  7. 【MySQL】Could not initialize master info structure
  8. 【CodeVS3372】选学霸
  9. masm5安装教程_masm5 1、下载个masm5.0(简单 联合开发网 - pudn.com
  10. 电脑html怎么连接投影仪,笔记本Win10电脑外接显示器(投影仪)的设置步骤
  11. 通达OA二次开发手册V12
  12. VSEARCH:最简单易学的扩增子分析流程
  13. 一台计算机英语美式发音,请教美式英语的几个发音问题!
  14. 项目中使用 husky 配合 lint-staged 进行git提交前代码检查
  15. 【Python零基础到入门】Python基础语法篇——数字(Number) 学习 【文末送书】
  16. 2022-04-14每日刷题打卡
  17. 计算机词汇店名,电脑店名字200例
  18. qt 调用linux键盘输入,嵌入式linux上QT标准键盘输入的实现
  19. 解决 raise ReadTimeoutError(self._pool, None, ‘Read timed out.‘)
  20. 分享一组Rpg Marker人物行走,游戏素材图片,共20张图片

热门文章

  1. 四年上册级计算机教学计划,小学数学四年级上册教学计划
  2. python使用kafka原理详解真实完整版_转:Kafka史上最详细原理总结 ----看完绝对不后悔...
  3. 求Fibonacci数列的前20项
  4. java表单 mysql 乱码_java web当中表单提交到后台出现乱码的解决方法
  5. psql where里有自定义函数慢_阿里P8架构师谈:MySQL慢查询优化、索引优化、以及表等优化总结...
  6. 18年第十三届黑龙江省赛
  7. 086.冒泡排序的缺点及解决方案
  8. 崔瀚文:人工智能/机器人会不会成为人?取代人?
  9. HDU 1573~3579 X问题Hello Kiki[同余方程]
  10. 一个最简单的登录页面测试case