作者丨Tengfei Wang

来源丨港科大、腾讯 AI Lab

编辑丨极市平台

论文:https://arxiv.org/abs/2109.06590

代码:https://github.com/Tengfei-Wang/HFGI

主页:https://tengfei-wang.github.io/HFGI/

视频:https://www.bilibili.com/video/BV1Xq4y1i7ev

只需一张照片,这个AI算法就能按照用户需求快速编辑图像属性,下面是AI脑补出照片微笑的样子:

再也不用担心拍照时把握不住微笑的时机了呢。除了表情,年龄、姿态也可以随心所欲变变变:

而且编辑后的图像可以高保真地保留原图的细节,比如背景、光照、装扮。

再从网络上找几张大家熟悉的名人照片试试,十年后的马斯克,假笑男孩Lecun,还有… … 涂了口红的约翰逊?

该项研究已经被CVPR 2022收录。

一、基于GAN Inversion的高保真图像编辑

GAN inversion技术最近被广泛研究,它可以将一张照片映射到一个GAN生成器的隐空间中,从而利用StyleGAN强大的能力对图片进行编辑。目前的GAN inversion方法分为三类:

  1. 基于编码器(encoder-based) 这类方法编辑图片的速度很快 (每张图 < 1s),但是编辑后的图片会丢掉很多原图中的细节,保真度低。

  2. 基于优化 (optimization-based) 这类方法对每张照片分别迭代,保真度高,但速度很慢(每张图几分钟)。

  3. 混合方法 这类方法先用编码器得到一个初始化的隐变量,然后对每个隐变量优化,速度介于基于第一类和第二类之间 (每张图数十秒至数分钟),但依旧缓慢,影响实用性。

这就导致大家在选择模型的时候需要做出权衡和取舍,是选择更快的速度呢,还是选择更高的保真度呢?对于有选择困难的小伙伴来说,简直太纠结了!

那么,本篇论文是如何选择速度和质量的呢?答案是:全都要。养一只会捕鱼(丢失的细节)的熊(补充编码器),就可以鱼和熊掌一块得到啦。在快速处理(每张图 0.2s)的同时,又能保证编辑后图像的高保真度高质量

二、方法

在介绍算法之前,作者先分析了基于编码器的方法进行重建或者编辑保真度低的原因。这里提到信息论中大名鼎鼎的率失真理论(Rate-Distortion theory),即对于一个编码-解码系统,隐编码(latent code)的bit-rate对重建信号的保真度(重建信号与源信号的distortion)存在限制。

也就是说,之前的编码器压缩得到的隐编码很小(low-rate),通常是1x512或者18x512,这就会导致在生成器重建过程中必然会损伤掉一些信息,造成较大的distortion,使得重建或者编辑后的图像和原图相比发生失真。

那么,是不是我们直接增大编码器输出隐编码的大小(high-rate),问题就解决了呢?答案是:yes and no。这样做确实可以提升重建图像的保真度,但是我们的目的是对图像进行编辑而不是重建。Low-rate隐编码由于是通过高度压缩的,所以可以编码一些高级、丰富、解耦的语义,这些隐编码在隐空间里通过操控(vector arithmetic)可以方便的编辑图像属性。但对于high-rate隐编码,冗余会造成隐编码耦合,而且编码通常缺乏语义信息(low-level),这就导致图像难以有效编辑。

为了解决这个问题,本文提出了一种名为信息参照(information consultation)的方法,同时利用low-rate和high-rate隐编码。该模型包括两个编码器,基础编码器压缩低率隐编码,用于保证图像的可编辑性;参照编码器对低率重建图像的失真信息进行补充编码,得到一个高率的隐编码,补充丢失的细节信息。

这两部分隐编码在生成器中通过参照融合层(consultation fusion)整合,共同用于图像生成。参照融合层参照下图:

由于缺少成对的编辑图像进行训练,作者还提出了相应的自监督训练方法以及自适应失真校正模块(ADA)。

三、实验结果

论文提供了人脸和车辆照片上的对比结果。首先是和基于编码的方法的对比:

然后是和优化方法以及混合方法的对比:

以及定量对比:

四、更多结果

该方法不仅可以用于图像编辑,也可以用来做视频的编辑,更多结果可以在作者的主页找到:https://tengfei-wang.github.io/HFGI/

五、在线试玩

这么好玩的方法,想不想用自己或者朋友的照片来体验一下?作者提供了一个online demo,可以自己上传图片或者用摄像头拍照来进行编辑。

在线试玩地址:https://replicate.com/tengfei-wang/hfgi

重磅!DLer-CVPR2022论文分享交流群已成立!

大家好,这是CVPR2022论文分享群里,群里会第一时间发布CVPR2022的论文解读和交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

CVPR 2022|处理速度仅用0.2秒!港科大腾讯AI lab开源基于GAN反演的高保真图像编辑算法...相关推荐

  1. 腾讯AI Lab与Robotics X 2022年度回顾

    感谢阅读腾讯AI Lab微信号第161篇文章.本文将进行2022年度回顾,祝大家新年快乐! 追求「比真实更真」,是贯穿 2022 年的大热点.基于大模型,AI 展现了令人兴奋的生成能力.与此同时,软硬 ...

  2. CVPR 2018 | 腾讯AI Lab入选21篇论文详解

    来源:腾讯AI实验室 近十年来在国际计算机视觉领域最具影响力.研究内容最全面的顶级学术会议CVPR,近日揭晓2018年收录论文名单,腾讯AI Lab共有21篇论文入选,位居国内企业前列,我们将在下文进 ...

  3. 【机器人解魔方秒杀人类】MIT学生开发机器人解魔方仅需0.38秒!(视频)

    2016年年底一个名为"Sub1 Reloaded"的机器人用时0.637秒复原一块三阶魔方,并创造了吉尼斯世界纪录.现在一个由麻省理工学院(MIT)学生Ben Katz和软件开发 ...

  4. 爱python的胖虾_爱了爱了!0.052 秒打开 100GB 数据,这个Python开源库火爆了!

    原标题:爱了爱了!0.052 秒打开 100GB 数据,这个Python开源库火爆了! 编译 | AI科技大本营(ID:rgznai100) 许多组织都在尝试收集和利用尽可能多的数据,以改善其经营方式 ...

  5. CVPR 2022 | 腾讯AI Lab入选论文解读,关注图像理解、生成、建模及可信AI

    感谢阅读腾讯AI Lab微信号第147篇文章.本文介绍腾讯 AI Lab 被 CVPR 2022 收录的研究成果. CVPR(Conference on Computer Vision and Pat ...

  6. ICASSP 2022 | 腾讯AI Lab解读14篇入选论文

    感谢阅读腾讯AI Lab微信号第146篇文章.本文介绍腾讯 AI Lab 入选 ICASSP 2022 的 14 篇论文. ICASSP (International Conference on Ac ...

  7. CVPR 2019 | 腾讯AI Lab解读六大前沿方向及33篇入选论文

    导语:本文将分组介绍计算机视觉顶级会议 CVPR 中腾讯 AI Lab 的重点研究方向和入选论文. 计算机视觉顶级会议 CVPR 2019 将于 6 月 15 日– 6 月 21 日在加利福尼亚州长滩 ...

  8. CVPR 2019 | 腾讯AI Lab 6大前沿方向33篇入选论文解读

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自腾讯 AI Lab 公众号(tencent_ailab),分组介绍了CVPR 2019 中腾讯 AI Lab 的6大重点研究方向和入选的33篇 ...

  9. 【CVPR2019】【CVPR腾讯】【CVPR 腾讯AI Lab】2019年腾讯AI Lab共33篇:解读六大前沿方向

    本文将分组介绍计算机视觉顶级会议 CVPR 中腾讯 AI Lab 的重点研究方向和入选论文. 计算机视觉顶级会议 CVPR 2019 将于 6 月 15 日– 6 月 21 日在加利福尼亚州长滩举办, ...

最新文章

  1. 生信分析平台方案推介,助力科研
  2. Android深度探索(卷1)HAL与驱动开发读后感---第四章
  3. 51单片机mysql_51单片机的定时器
  4. wxpython wx listctrl_wxPython - ListCtrl列表排序
  5. 【hihocoder 1039 字符串消除】模拟
  6. Forrester:华为云容器是容器混合云最佳选择
  7. Spring+MyBatis企业应用实战 - 笔记- Java EE应用
  8. Python中MySQL查询结果返回类型
  9. Jquery表单清空
  10. 计算机应用技术万字毕业论文,计算机应用论文范文 关于计算机应用硕士毕业论文范文2万字...
  11. 2018蓝桥杯模拟赛(一)--青出于蓝而胜于蓝(线段树)
  12. js 判断移动终端浏览器版本信息
  13. Android 实现 iBeacon
  14. php计算面积,PHP中长方形的面积怎么求
  15. IOS 视频直播常用集成
  16. OpenGL + Win32 SDK 开发框架的搭建(C语言版)
  17. 配置郭神的LitePal(面向对象一样操作sqlite数据库,不再使用SQL语句)
  18. Linux文本三剑客
  19. 3232. 计算球体积
  20. 进程间通信(IPC 工具介绍)

热门文章

  1. mysql AB 的基本搭建
  2. 实战Linux Bluetooth编程(四) L2CAP层编程
  3. 4、Eternal框架-持有者
  4. Ez*** on ASA
  5. SQL Server 2008 :安装
  6. 为什么要低温保存_新酒为什么要贮存一段时间才能喝?瓶装白酒这样保存最好!...
  7. 首次使用mysql_mysql的初次使用操作
  8. linux查找文件命令find
  9. 学习编译原理对下面这段java跳不出死循环大概能有较好的解释吧
  10. python round()四舍五入有偏差 注意了解