丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI

GAN又被开发出一项“不正经”用途。

给猫狗加表情:

给马斯克加胡子:

不管视频中的脑袋怎么左晃右晃,这些表情都能始终如一地贴合面部,且每一帧都表现得非常丝滑。

这就是朱俊彦等人的最新研究成果:

一种利用GAN监督学习实现的密集视觉对齐(Visual alignment)方法。

该方法的性能显著优于目前的自监督算法,在多个数据集上的性能都与SOTA算法相当,有的甚至还实现了两倍超越。

用GAN监督学习实现密集视觉对齐

视觉对齐是计算机视觉中光流、3D匹配、医学成像、跟踪和增强现实等应用的一个关键要素。

直白地说,比如在人脸识别中,就是不管一张脸是倒着立着还是歪着,任何角度都可以精确识别出哪块是眼睛哪块是鼻子。

而开创性的无监督视觉对齐方法Congealing,在MNIST digits这种简单的二值图像(binary images)上表现得出奇好,在处理大多数具有显著外观和姿势变化的数据集上就差了点。

为了解决这个问题,该团队提出了这个叫做GANgealing的新视觉对齐方法。

它是一种GAN监督算法,同时也受到Congealing的启发。

Congealing模型的框架如下:

首先,在未对齐的数据上训练生成器G。

然后在生成器G的潜空间中通过学习模式c,来创建一个合成数据集以进行后续对齐。

接着使用该数据集训练空间变换网络T(STN,Spatial Transformer Networks),最后在预测和目标图像中使用感知损失将未对齐的图像映射到相应的对齐图像。

该算法的关键是利用GAN的潜空间(在未对齐的数据上训练)为STN自动生成成对的训练数据。

并且在这个GAN监督学习框架中,STN和目标图像实现联合学习模式,STN专门使用GAN图像进行训练,并在测试时推广到真实图像。

实际效果如何?

实验发现,GANgealing在八个数据集(自行车、狗、猫、汽车、马、电视等)上都能准确找出图片之间的密集对应关系。

其中,每个数据集的第一行表示未对齐的图像和数据集的平均图像(每行最右那张),第二行为转换后的对齐效果,第三行则显示图像之间的密集对应关系。

图像编辑应用中,GANgealing可以只在平均图像(下图最左)进行示范,就能在数据集中的其他图像上实现同样的效果——不管这些图像的角度和姿势变换有多大。

比如第一行为给小猫加蝙蝠侠眼镜,最后一行为给汽车车身贴上黑色图案。

视频编辑中,GANgealing在每一帧上的效果都相当丝滑,尤其是和监督光流算法(比如如RAFT)对比,差距非常明显

因此作者也表示,GANgealing可以用在混合现实应用中。

而在定量实验中,GANgealing在非常精确的阈值(<2像素误差容限)条件下优于现有的监督方法,在有的数据集上甚至表现出很大的优势。

再在具有挑战的SPair-71K数据集上将GANgealing与几种自监督SOTA方法进行性能评估。

比的则是PCK-Transfer值(PCK,percentage of keypoints),它衡量的是关键点从源图像转换到目标图像的百分比。

结果发现,GANgealing在3个类别上的表现都明显优于目前的方法,尤其是在自行车和猫图集上实现了对自监督方法CNNgeo和A2Net的两倍超越。

当然,GANgealing在数据集图片与示例差太多时表现得就不太好,比如面对下面这种侧脸的猫以及张开翅膀的小鸟。

作者介绍

GANgealing的作者们分别来自UC伯克利、CMU、Adobe以及MIT。

一作为UC伯克利三年级的博士生Bill Peebles,研究方向为无监督学习,重点是图像和视频的深度生成模型。

目前在CMU担任助理教授的青年大牛朱俊彦也在其中。

通讯作者为Adobe Research的高级首席科学家Eli Shechtman,他发表了100多篇论文,曾获得ECCV 2002最佳论文奖、WACV 2018最佳论文奖、FG 2020最佳论文亚军以及ICCV 2017的时间检验奖等荣誉。

论文地址:
https://arxiv.org/abs/2112.05143

代码:
https://github.com/wpeebles/gangealing

项目主页:

https://www.wpeebles.com/gangealing

朱俊彦团队最新论文:用GAN监督学习给左晃右晃的猫狗加表情,很丝滑很贴合...相关推荐

  1. GAN能生成3D图像啦!朱俊彦团队公布最新研究成果

    晓查 发自 凹非寺 量子位 出品 | 公众号 QbitAI GAN现在可以合成3D图像了! 最近,MIT计算机科学与AI实验室的朱俊彦团队,发表了一篇论文<Visual Object Netwo ...

  2. 朱俊彦团队提出GAN压缩算法:计算量减少20倍,生成效果不变,GPU、CPU统统能加速...

    边策 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 现如今,GAN的效果已经越来越出神入化. 比如英伟达的GauGAN,就如神笔马良,能够凭空造物: 不过,从无化有背后,计算量也相当惊人 ...

  3. ICCV 2021 | CMU朱俊彦团队:用一张草图轻松创建GAN模型

    ©作者 | 杜伟.陈 来源 | 机器之心 CMU 助理教授朱俊彦团队的最新研究将 GAN 玩出了花,仅仅使用一个或数个手绘草图,即可以自定义一个现成的 GAN 模型,进而输出与草图匹配的图像.相关论文 ...

  4. 3D图像生成和编辑研究成果大放送!朱俊彦团队放出两篇论文实现代码 | 资源...

    乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 朱俊彦团队,一口气放出两篇论文的实现代码! 这两篇论文,都与3D图像有关,都被NeurIPS 2018大会收录了.朱俊彦在Twitter上 ...

  5. 朱俊彦团队推出首个基于内容的深度生成模型搜索算法!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 作者 | 李梅 转载自:AI科技评论  编辑 :陈彩娴 最近的生成 ...

  6. 深度丨吴恩达团队最新论文:用CNN算法识别肺炎影像,准确率超过人类医生

    大数据文摘作品 编译:姜范波 吴恩达团队又有新动态!北京时间11月16日,吴恩达连发两条推文,称"放射科医生应该担心他们会丢掉工作了!最新突破--利用胸部X光片,我们可以用深度学习方法诊断肺 ...

  7. 李飞飞团队最新论文:基于anchor关键点的类别级物体6D位姿跟踪

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 简介 作者提出了一种基于RGB-D的深度学习方法6PACK,能够实时的跟踪已知类别物体.通过学习用少量 ...

  8. 传统的6d位姿估计fangfa1_李飞飞团队最新论文:基于anchor关键点的类别级物体6D位姿跟踪...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 简介 作者提出了一种基于RGB-D的深度学习方法6PACK,能够实时的跟踪已知类别物体.通过学习用少量 ...

  9. 环特生物研究团队最新论文表示,杀虫剂仲丁威或诱发神经毒性

    当下,全球新冠肺炎疫情肆虐,巴基斯坦等国家也在遭受沙漠蝗与伊朗蝗虫的双重入侵,中国也紧急提供了一批又一批救援物资支持"巴铁"伙伴. 仲丁威(2-仲丁基苯基氨基甲酸甲酯,BPMC), ...

最新文章

  1. 使用程序解决一道逻辑推理题
  2. mysql下sql语句 update 字段=字段+字符串
  3. CentOS7.2中安装rabbitmq
  4. 内存映射文件mmap原理分析
  5. 30个Linux安装案例,Make和Makefile说明,Linux工具,容器安全性,DevOps技巧等
  6. ROI坐标点提取(python)
  7. Redis在游戏服务器中的应用
  8. UOJ269 清华集训2016 如何优雅地求和 下降幂多项式、NTT
  9. Discuz! 的编码规范
  10. 广东省大学计算机应用基础考试试题,2021年广东省对口考试要做哪些题目?计算机应用基础(Windows7+office2010)周测月考单元卷...
  11. python撤回快捷键大全_Python 快捷键大全
  12. 基于java飞机大战游戏
  13. Excel VBA宏编程入门(五)——用户交互
  14. 移动硬盘显示拒绝访问文件怎样找到
  15. php 怎么设置cookie,php中如何设置cookie
  16. 2021腾讯前端笔试实习生
  17. MySQL窗口函数OVER()
  18. linux 报错:http://people.centos.org/tru/devtools-2/7/x86_64/RPMS/repodata/repomd.xml: [Errno 14]
  19. MySQL字段名获取
  20. 顶会论文笔记:联邦学习——ATPFL: Automatic Trajectory Prediction Model Design under Federated Learning Framework

热门文章

  1. 用DFS 解决全排列问题的思想详解
  2. 如何在android中创建自定义对话框?
  3. 如何将当前更改提交到git中的不同分支[重复]
  4. JavaScript对象中的构造方法
  5. python多进程模板
  6. 工程项目如何实现采购效益最大化?
  7. 函数式编程语言时代已经来临
  8. 如何用12864液晶显示图片和绘制任意函数图象(打点)
  9. 删除SmartAuditor日记信息报错问题
  10. Win7旗舰版安装Oracle_11gR1_database