点击上方“小白学视觉”,选择加"星标"或“置顶”
重磅干货,第一时间送达

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容。个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要下载原文,了解具体内容。

源码链接:https://github.com/omertov/encoder4editing

摘要

最近,通过使用预先训练过的无条件生成器来执行图像编辑的各种方法出现了激增。然而,在真实图像上应用这些方法仍然是一个挑战,因为它必然需要将图像反转到它们的潜在空间。为了成功地反转真实图像,需要找到一种潜在的代码来准确地重建输入图像,更重要的是,允许对其进行有意义的操作。本文详细研究了最先进的无条件生成器StyleGAN的潜在空间。作者识别并分析在样式潜在空间中存在的扭曲-可编辑性权衡和扭曲-感知权衡。然后,作者提出了两个设计编码器的原则,使其能够控制与StyleGAN最初训练的区域的倒置的接近性。作者提出了一个基于作者的两个原则的编码器,这是专为促进编辑真实图像,通过平衡这些权衡。通过对其在包括汽车和马在内的众多具有挑战性的领域的性能进行定性和定量评价,作者证明了作者的反演方法,以及常见的编辑技术,在只有很小的重建精度下降的情况下,获得了较高的真实图像编辑质量。

本文创新点

提出了定量和定性的结果证明distortion-editability distortion-perception权衡,和反相接近的好处w .作者评估作者的编码器,显示作者的方法及其适用性的泛化为各种具有挑战性的领域,与面部域不同,没有共同的结构和可能包含大量的模式。在下图中,作者展示了编码器在多个领域中获得的反转,以及使用各种编辑方法执行的几个操作。可以看到,只有轻微的失真退化,作者能够实现合理的编辑图像,同时保留原始图像的内容和质量。

总结一下,作者提出了四个主要贡献:

  • 作者分析了柱体的复杂潜伏空间,提出了柱体结构的新观点。

  • 作者展示了扭曲、感知和可编辑性之间固有的权衡。

  • 作者描述了这种权衡,并设计了两种编码器来控制它们。

  • 作者提出了e4e,一种新的编码器,是专门设计的,允许随后编辑倒转的真实图像。

框架结构

作者的e4e网络架构。编码器接收一个输入图像,并输出一个样式代码w和一组偏移量1..N 1,其中N为StyleGAN s风格调制层数。作者通过复制w向量N次并将每个i加到对应的元素来获得最终的潜在表示法。在训练期间,Ld-reg正则化鼓励最终表示的不同条目之间存在较小的差异,从而保持接近W。Ladv将每个潜在代码引导到StyleGAN映射网络的范围内,从而使最终的表示更接近于Wk。由于应用了这两个正则化项,编码器的最终学习表示接近于W。

实验结果

作者展示了源图像的三联体,它的反演,以及对多个域的反演图像应用的编辑。在奇数行,作者的基线编码器(A)获得反演。在偶数行,作者使用配置D,对接近w的图像进行编码,观察反演图像的失真和感知质量之间的权衡。例如,在白马的图像中,使用构型A观察倒像的低失真(例如马鞍被保留)。但是,感知质量比D得到的要低(如马头不真实)。关于可编辑性,请注意,在女性的左上角图像中,姿态编辑并没有忠实地改变a中的头发。相反,D以失真的细微退化为代价,获得了一个真实且视觉愉悦的编辑结果。从上到下,从左到右的编辑是:头部姿势,性别,日光,观点(x3),马姿势,骑马者,猫姿势。

扭曲感知和扭曲编辑的权衡。放大细节。左边的图像是源图像。在顶部一行,作者展示了一系列图像,其中最左边的图像是通过pSp得到的重建图像,最右边的图像是通过e4e得到的重建图像。当作者向右移动时,反转越接近W,失真越严重,感知质量越好。然后,作者使用StyleFlow对每个倒置和插值图像执行性别编辑。注意,当用于编辑的潜在代码接近W时,感知质量变得明显更好。例如,观察最左边编辑过的图像中不真实的头发。

结论

作者的主要贡献有两方面:

  • 作者提出了鼓励将真实图像的编码映射到表现良好的Wk区域的方法;

  • 作者设计了一个编码器,并根据失真和可编辑性之间的权衡,演示了其性能。

作者也讨论了评估重构和可编辑性的困难,并提出了建立在常用措施上的评估协议。从某种意义上说,作者提出的方法是对图像处理方法的一种补充,可以提高真实图像的编辑质量。

一般来说,作者的编码器鼓励映射接近W,这工作得很好,因为W周围的空间仍然是令人惊讶的高度表达。此外,该原理还可用于图像反演以外的问题。例如,它可以应用于地图潜在的向量代表多个图像,或者说两个的组合,如身份和姿态的解离表示,或混合的两个图片,一个合适的潜在目标图像的代码可能存在于邻近w。作者计划去探索这个研究方向。

作者的反演方案是通用的,作者已经在五个具有挑战性和多样化的领域展示了它的性能。然而,请注意,有些领域比其他领域更难。人脸结构良好,简化了编码器的训练。例如,马的领域就复杂得多,因为它是非结构化的,并且有许多模式。因此,训练这样一个领域的编码器是非常具有挑战性的。在未来,作者将考虑像Sendik等人那样的多模态生成器,并将编码器开发成多模态潜在空间。

最后,在这里作者考虑到一个给定的潜在空间的反转。在未来,考虑对生成器进行微调,并训练编码器和解码器,使其针对特定的下游任务实现共同目标,将是一件有趣且具有挑战性的事情。

论文链接:https://arxiv.org/pdf/2102.02766.pdf

每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。

- END -

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

一个用于styleGAN图像处理的编码器相关推荐

  1. 【深度学习】一个用于styleGAN图像处理的编码器

    小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家带来经典或者最新论文的解读和分享,旨在帮助各位读者快速了解论文内容.个人能力有限,理解难免出现偏差,建议对文章内容感兴趣的读者,一定要 ...

  2. 机器学习用于数字图像处理_用于创建数字内容的免费电子学习工具

    机器学习用于数字图像处理 经常看到一个软件应用程序停滞不前–没有新版本,没有更新. 最终,它被先进的技术所取代,其用户基础逐渐消失. 开源软件不能幸免于这种命运,但是它比商业软件更容易复兴,在商业软件 ...

  3. nextvlad:一个用于大规模视频分类的聚集帧级特征的有效神经网络 NeXtVLAD: An Efficient Neural Network toAggregate Frame-level Fea

    nextvlad:一个用于大规模视频分类的聚集帧级特征的有效神经网络 NeXtVLAD: An Efficient Neural Network toAggregate Frame-level Fea ...

  4. Rail-5k:一个用于轨道表面缺陷检测的真实数据集

    Rail-5k:一个用于轨道表面缺陷检测的真实数据集 文章目录 Rail-5k:一个用于轨道表面缺陷检测的真实数据集 摘要 1 介绍 2 相关工作 2.1自然图像数据集 2.2合成缺陷数据集 2.3铁 ...

  5. Hyperledger Grid:一个用于分布式供应链解决方案的框架

    Hyperledger在最近的一篇博文中发布了一个名为Hyperledger Grid的新项目.Grid是一个用于集成分布式账本技术(DLT)解决方案与供应链行业企业业务系统的框架.该项目提供了一个参 ...

  6. Google用更少标签生成图像,还提出一个用于训练评估GAN的库

    参加 2019 Python开发者日,请扫码咨询 ↑↑↑ 译者 | 刘畅 责编 | 琥珀 出品 | AI科技大本营(ID:rgznai100) 生成对抗网络(GAN)是属于一种强有力的深度生成模型.G ...

  7. Netflix发布Polly.JS,一个用于HTTP交互的开源库

    Netflix最近发布了Polly.JS,一个用于记录.重放和模拟HTTP交互的开源库. \\ Polly利原生机浏览器API来模拟请求和响应,以便减少配置工作,为开发人员提供一种管理HTTP请求的机 ...

  8. 一个用于读写配置文件的类

    一个用于读写配置文件的类 该类适应读写如下格式的.xml,.config文档 <?xml version="1.0" encoding="utf-8" s ...

  9. Druid:一个用于大数据实时处理的开源分布式系统——大数据实时查询和分析的高容错、高性能开源分布式系统...

    转自:http://www.36dsj.com/archives/28590 Druid 是一个用于大数据实时查询和分析的高容错.高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分 ...

最新文章

  1. Python中的traceback模块
  2. 如何在React Native中使用Redux Saga监视网络更改
  3. 正面管教php_中联重科团委快乐父母协会第五期正面管教家长基础班招募!
  4. 2010年复旦MBA预审说明
  5. Grafana教程(prometheus 基本查询语法,alerting报警)
  6. 创建枚举类 java_Java枚举类
  7. HDU 6080 度度熊保护村庄(计算几何+最小环-Floyd)
  8. 实际BCI应用:异步EEG/EOG BCI手抓取和释放的可行性
  9. 中西方对时间的差异_中西方文化交际中时间观的差异对比
  10. Java及依赖和Maven
  11. 基于Kotlin实现学生信息管理系统【100010063】
  12. 一个优秀的团队的重要性
  13. 关于技术型人才与研究型人才
  14. 想用自己电脑做服务器并且绑定域名建一个个人网站应该怎么做
  15. python 用selenium获取好友空间说说及时间写入txt
  16. Cisco路由器配置教程
  17. 计算机考试中英文打字题,计算机信息技术(五笔及中英文打字测试试题)
  18. ZZULIOJ1047: 对数表
  19. 李宏毅-机器学习深度学习-第六讲-深度学习介绍
  20. C++ 双线性插值缩放图像

热门文章

  1. 百度大脑开放日第三期:四大全新平台、两大场景方案助力开发者逐梦 AI
  2. CVPR2019 | 斯坦福学者提出GIoU,目标检测任务的新Loss
  3. 程序员如何用“撞针“拯救35亿地球人?
  4. TensorFlow 2.0开发者预览版发布
  5. 癌症治疗新曙光:AI助力科学家更好地观察人类活体细胞
  6. 过滤请求绝技,布隆过滤器与布谷鸟过滤器
  7. 尽快卸载这两款恶意浏览器插件!已有近 50 万用户安装
  8. 你在 Docker 中跑 MySQL?恭喜你,可以下岗了!
  9. 我们已经不用AOP做操作日志了!
  10. SpringBoot缓存应用实践