论文:Enhancing Underwater Imagery using Generative Adversarial Networks
作者:Cameron Fabbri
年份:2018
期刊:IEEE International Conference on Robotics and Automation (ICRA)

文章目录

  • 摘要
  • 与WaterGAN比较
  • A.数据集生成
  • B.对抗性网络
  • C.图像梯度差异损失
  • D.网络架构和训练细节

摘要

本文提出了一种使用生成对抗网络来改善水下视觉场景质量的方法,使用CycleGAN生成配对图像的数据集,为恢复模型提供训练集。目标是改善视觉驱动行为的输入,进一步降低自主性。

与WaterGAN比较

(1)WaterGAN使用GAN生成水下图像,并使用欧几里得损失(欧氏距离)进行色彩校正;本文同时使用GAN来进行颜色校正。
(2)WaterGAN训练过程中需要深度信息,对于水下自主机器人应用通常很难获得;本文仅需要在两个单独的域(例:水下和陆地)中拍摄物体的图像。
本文使用CycleGAN作为失真模型,以生成用于训练的配对图像。分别给出无失真和有失真的水下图像域,CycleGAN能够执行样式转换。给定一个未失真的图像,CycleGAN会将其失真,以使其似乎来自失真图像的域,这些在本文算法中用于图像重建。

A.数据集生成

IC:没有失真的水下图像,ID:失真的同一图像。目标是学习功能f:ID→IC。由于难以收集水下数据,通常不仅ID或IC存在,而且两者都不存在。为了避免图像对不足的问题,本文使用CycleGAN从IC生成ID,从而提供了成对的图像数据集。

B.对抗性网络

在最初的GAN公式中,目标是解决minimax问题:

本文用WGAN公式,本文采用具有梯度惩罚的Wasserstein GAN(WGAN-GP),而不是裁剪网络权重,而是通过对鉴别器输出相对于其输入的梯度范数进行软约束,确保了Lipschitz约束。
原本cycleGan的损失函数:

在这里,直接使用本公式会产生gan网络模式崩溃的问题,所以作者找到了更加适合水下图像的损失函数(loss采用了Wasserstein距离,也就是EM距离,不是欧式距离,EM距离主要是用于衡量两个分布之间的距离,可以获得更多细节信息,即LWGAN):

Pxˆ:沿着来自真实数据分布和发生器分布的成对点之间沿直线的样本,λGP:加权因子。为了使G具有基本的真实感,并捕获图像中的低电平频率,(因为水下图像增强的后一个阶段是生物识别等功能的增强),所以在这里考虑了L1loss:

加一个L1正则化项可以避免过拟合。loss总公式Underwater GAN (UGAN):

C.图像梯度差异损失

本文提出一个UGAN-P loss,在UGAN的基础上加了一项Gradient Diffrence Loss(梯度差损失),用来锐化图像来避免生成的图像模糊。作者用这两个loss分别训练了两个网络,进行对比(地面真实图像IC,预测图像IP = G(ID)且α为大于或等于1的整数)

D.网络架构和训练细节


unet网络可以简单看为先下采样,经过不同程度的卷积,学习了深层次的特征,在经过上采样回复为原图大小,上采样用反卷积实现。最后输出类别数量的特征图,如分割是两类(是或不是),典型unet也是输出两张图,最后要说明一下,原网络到此就结束了,其实在最后还要使用激活函数softmax将这两个类别转换为概率图,针对某个像素点,如输出是[0.1,0.9],则判定这个像素点是第二类的概率更大。
网络结构可以看成3个部分:
•下采样:网络的红色箭头部分,池化实现
•上采样:网络的绿色箭头部分,反卷积实现
•最后层的softmax:在网络结构中,最后输出两张fiture maps后,其实在最后还要做一次softmax,将其转换为概率图。
本文UGAN的kernalsize是4x4,步长是2.encoder部分的网络层都会跟在一个batch normalization和一个斜率为0.2的激活函数leakyRELU后面。Decoder部分则是跟在激活函数RELU后,没有Batch Normalization(原因:WGAN-GP会针对每个输入单独惩罚判别器梯度的范数,该批归一化将无效,层归一化也没有明显的改进)。最后一层的激活函数用的是tanh。判别部分的网络用了一个叫patchgan的设计,大意就是判别网络输出的是一个32x32x1的特征矩阵,
本文判别器被建模为PatchGAN ,它在图像块级别上进行判别。与常规判别器不同,PatchGAN鉴别器输出的是一个32×32×1特征矩阵,不是0或者1,这样可以获得更多的细节信息,为高阶频率提供了一个度量。

【论文阅读】Enhancing Underwater Imagery using Generative Adversarial Networks相关推荐

  1. 论文解读 《Enhancing Underwater Imagery using Generative Adversarial Networks》ICRA2018

    项目:http://irvlab.cs.umn.edu/enhancing-underwater-imagery-using-gans 论文: https://arxiv.org/pdf/1801.0 ...

  2. 论文阅读 [TPAMI-2022] DE-GAN: A Conditional Generative Adversarial Network for Document Enhancement

    论文阅读 [TPAMI-2022] DE-GAN: A Conditional Generative Adversarial Network for Document Enhancement 论文搜索 ...

  3. 自动驾驶轨迹预测论文阅读(三)Social GAN: Socially Acceptable Trajectories with Generative Adversarial Networks

    [略读]GUPTA A, JOHNSON J, FEI-FEI L, et al., 2018. Social GAN: Socially Acceptable Trajectories with G ...

  4. 论文阅读Reconstructing CT from Biplanar X-Rays with Generative Adversarial Networks

    Reconstructing CT from Biplanar X-Rays with Generative Adversarial Networks 基于生成对抗网络的双平面x线重建CT 来源:CV ...

  5. Text to image论文精读 DM-GAN: Dynamic Memory Generative Adversarial Networks for t2i 用于文本图像合成的动态记忆生成对抗网络

    Text to image论文精读 DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis ...

  6. BEGAN: Boundary Equilibrium Generative Adversarial Networks阅读笔记

    BEGAN: Boundary Equilibrium Generative Adversarial Networks阅读笔记 摘要 我们提出了一种新的用于促成训练时生成器和判别器实现均衡(Equil ...

  7. 论文翻译:2019_Bandwidth Extension On Raw Audio Via Generative Adversarial Networks

    论文地址:原始音频的带宽扩展通过生成对抗网络 博客作者:凌逆战 博客地址:https://www.cnblogs.com/LXP-Never/p/10661950.html 摘要 基于神经网络的方法最 ...

  8. ESRGAN - Enhanced Super-Resolution Generative Adversarial Networks论文翻译——中英文对照

    文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  简书 声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 翻译论文汇总:https://github.com ...

  9. 论文翻译:2019_Speech Super Resolution Generative Adversarial Network

    博客作者:凌逆战 论文地址:基于GAN的音频超分辨率 博客地址:https://www.cnblogs.com/LXP-Never/p/10874993.html 论文作者:Sefik Emre Es ...

  10. 论文翻译:Speech Super Resolution Generative Adversarial Network

    博客作者:凌逆战 论文地址:https://ieeexplore.ieee.org/document/8682215 博客地址:https://www.cnblogs.com/LXP-Never/p/ ...

最新文章

  1. rate-limit
  2. 高响应比优先算法代码_以梦为码丨让每一行代码都充满温情
  3. python读取csv文件制图-python读取CSV文件
  4. MFC 双击控件 提示重载函数已存在
  5. python none_None关键字,带Python示例
  6. linux18.0.4安装mysql
  7. 【思维智慧】007.利用贪婪的人身上的破绽
  8. 图的存储结构(邻接矩阵)
  9. 冲刺第五天 1.6 SUN
  10. 2015年最好的员工心态培养 -- 我们需要把简单的事情做到极致
  11. angular之service、factory预provider区别
  12. SQL Server 通过发布订阅 实现数据库同步
  13. java tfidf_Hanlp分词实例:Java实现TFIDF算法
  14. 计算机硬盘显示在右边,电脑中出现一个系统保留磁盘分区怎么解决
  15. win10 计算机网络密码怎么设置,win10系统提示windows安全 输入网络密码的设置教程...
  16. 《RabbitMQ实战》7.warren和Shovel:故障转移和复制
  17. 仿写携程旅游手机浏览器页面
  18. python:实现9×9二维数组数独算法(附完整源码)
  19. live两种读音[liv][laiv]含义上的区别
  20. Centos 6、7 配置BBR加速

热门文章

  1. 基于李雅普诺夫函数的跟踪控制(一)
  2. 清华牛人总结的数据分析笔记
  3. java 内存回收参数_JVM内存模型及垃圾回收的研究总结
  4. 枚举所有IE窗口,实现自动登录
  5. html编辑个人信息页面,编辑个人信息.html
  6. 幼儿园故事导入语案例_幼儿园老师上课常用导入语 课前活跃气氛用这11种方法就对了...
  7. 【舆情分析(5)】 情感倾向分析之鲁迅《祝福》里对祥林嫂(特定人物)的情感倾向
  8. Virtual Network----网卡offload特性和网络加速技术简述
  9. 关于怎么测试网站页面打开速度?有什么工具能实现么?
  10. 学习python的第二周 第一天