任务

在对图像的表示中,最经典的方式是利用矩阵对图片进行表达,但是这种表达方式将图片进行离散化了。而在真实的世界中,我们认为是连续的,或者近似连续的。于是,作者提出使用一个连续的函数来表示图像,再结合目前的神经网络,提出一个方案,即利用神经网络来逼近这个连续的函数。这种方案被称为INR(Implicit Neural Representation),表达的公式如下:

对于图像来说,INR将二维坐标映射到RGB的一个值。

上图是一个对比图,坐标为常规的卷积网络做图像生成的方法,右边为使用INR的方法。

解决的问题

(1)如何设计网络使得网络训练能够更稳定。为什么会有这么一个问题呢?因为这是一种hypernetwork,即利用网络去学习网络参数,因此在学习训练的过程中,更不容易稳定训练。

(2)如何处理高分辨率的图像,使得对硬件的耗费资料更小。在处理高分辨率图像的时候,由于这种方法需要对每一个单独的像素进行映射运算,因此会占用更高的内存消耗。

作者设计了factorized multiplica-tive modulation(FMM)的方法和multi-scale的方法去处理解决以上的问题。

方法

如上图的pipeline所示,是整个方法的流程,G是生成器,从高斯分布中采样进行生成,不过生成的是参数。这个参数将用在INR模型F中,作为这个函数的参数。为了产生一张完整的图片,作者对一张图片的每一个grid都要进行运算。作者在这使用了傅里叶特征变换,对输入的坐标点进行了变换,将坐标映射为一个特征向量。

FMM(Factorized Multiplicative Modulation)

在计算的时候,作者一开始通过矩阵分解将学习的矩阵分成两个低秩矩阵,但是这种矩阵的分解方式会产生大量的0值奇异值从而影响GAN的训练。因此作者采取了一种折中的方案,Generator产生低秩矩阵,低秩矩阵相乘得到一个高阶矩阵,再经过一个激活函数之后,与一个可学习矩阵相乘,得到最后的矩阵。如下图所示:

通过生成器产生A和B矩阵,然后经过一个激活函数,和一个可学习的参数W相乘,最后得到最终的权重矩阵。

Multi-scale INRs

由于最终产生的是一个高分辨率的图片,作者通过多尺度计算的方式减少计算的开销。如下图所示:

不同的层次处理不同分辨率下的grid。这允许一个grid运算的时候与周围的grid共享计算。对于这个网络,在处理低分辨率的时候,用更多的神经元,在处理高分辨率的时候,用来更少的神经元。作者在做这个设定的时候,使用了和卷积相同的引导偏执,即一个像素受到周围像素的影响非常大。

思考

这篇论文个人认为做得很不错,但是受限于个人的知识,我有几个疑惑的地方:

(1)矩阵分解之后为什么会产生很多的0奇异值,它又是怎么影响GAN的训练效果的。

(2)F的各个block是如何做插值运算,提高分辨率的。

在补充完相关数学知识和阅读源代码后,会补充。

此外,个人认为这种方法应该能和点云进行一些联动。SP-GAN感觉已经是对这种方法的应用了。

参考文献:

  • Ivan Skorokhodov, Savva Ignatyev, Mohamed Elhoseiny:
    Adversarial Generation of Continuous Images. CVPR 2021: 10753-10764

github地址:

GitHub - universome/inr-gan: Adversarial Generation of Continuous Images [CVPR 2021]

Adversarial Generation of Continuous Images 阅读笔记相关推荐

  1. Generative Adversarial Networks: An Overview文献阅读笔记

    Generative Adversarial Networks: An Overview笔记 Abstract Generative adversarial networks (GANs) provi ...

  2. 【文字超分辨率】A Text Image Super-Resolution Generation Network without Pre-training 阅读笔记

    最近在研究文字图像的超分辨率,下载了几篇论文,准备略读一下,每篇文章写个笔记做记录. 主要贡献: A non-training text image super-resolution generati ...

  3. 文献阅读笔记-CSC-数据集-A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check

    A Hybrid Approach to Automatic Corpus Generation for Chinese Spelling Check 文献阅读笔记 论文相关信息: EMNLP-201 ...

  4. 《Deep Learning Techniques for Music Generation – A Survey》深度学习用于音乐生成——书籍阅读笔记(一)Chapter 1

    <Deep Learning Techniques for Music Generation – A Survey>深度学习用于音乐生成--书籍阅读笔记(一)Chapter 1 关于这本书 ...

  5. 毫米波点云生成论文 阅读笔记 | 3D Point Cloud Generation with Millimeter-Wave Radar

    毫米波点云生成论文 | 3D Point Cloud Generation with Millimeter-Wave Radar Kun Qian, Zhaoyuan He, Xinyu Zhang ...

  6. Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation阅读笔记

    Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Appr ...

  7. PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记

    PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记 一.Abstract 二.引言 三.相 ...

  8. BEGAN: Boundary Equilibrium Generative Adversarial Networks阅读笔记

    BEGAN: Boundary Equilibrium Generative Adversarial Networks阅读笔记 摘要 我们提出了一种新的用于促成训练时生成器和判别器实现均衡(Equil ...

  9. 深度学习超分辨率综述阅读笔记(翻译)

    深度学习超分辨率综述阅读笔记(翻译) https://arxiv.org/abs/1902.06068 摘要:图像超分辨率(SR)是计算机视觉中增强图像和视频分辨率的一类重要图像处理技术.近几年来,图 ...

  10. 《Improved Techniques for Training GANs》-论文阅读笔记

    <Improved Techniques for Training GANs>-论文阅读笔记 文章目录 <Improved Techniques for Training GANs& ...

最新文章

  1. 关于SDC沙盒源代码加密
  2. python接口 同花顺_这是真的么 | 学会了用Python预测股票价格
  3. Keras: 多输入及混合数据输入的神经网络模型
  4. python2.7安装matplotlib_Python安装Numpy和matplotlib
  5. Winform中实现执行cmd命令的工具类
  6. C#中TransactionScope的使用方法和原理
  7. 数据结构-二叉排序树
  8. 用蒙特卡洛方法计算派-python和R语言
  9. python决策树的应用_机器学习-决策树实战应用
  10. 想说爱你不容易,浏览器缓存浅谈
  11. 一个农民父亲令人震撼的力量
  12. IPXX防护等级中关于防水实验的规定
  13. Linux下mail服务配置(RHEL5)
  14. json 和 数组的区别
  15. 高通camx clock配置
  16. GEF:应用示例列表
  17. 给你的页面加一个百度地图
  18. 累土--电容屏和电阻屏区别
  19. css图片滑动切换图_html图片轮播原理
  20. 分类,等级,或者有序变量如何进行多因素Cox回归 变量的类型决定了最终结果的reference

热门文章

  1. Simulink-repeating squence
  2. C语言标识符之——“~“
  3. 攻防世界misc 如来十三掌
  4. 虚拟摄像头之一: android8.1 移植 v4l2loopback 虚拟摄像头
  5. Python中print的用法
  6. python的print函数中file_python3之print()函数
  7. 【蓝桥杯】等差素数列
  8. Arcgis 空间分析—学校选址
  9. 股票交易接口JavaScript开发
  10. 慕课乐学python单元测试答案_中国大学慕课答案第五章单元测试答案_乐学软件工程完整答案...