家栗子 发自 航天桥
量子位 出品 | 公众号 QbitAI

古人云,捕风捉影。

捕风或许不那么容易,毕竟,能停下来的,就不是风了。

捉影的话,可以把神经网络放出来,它们的视觉可以很灵敏。

不过,神经网络要追的,是反光表面映照出来的倒影。

加州大学伯克利分校的研究人员,不喜欢在水族馆拍鱼的时候,照到一个灵异的自己。

于是,他们就要利用神经网络强大的感知能力,来除灵了。还中选了CVPR

反光层透射层,分离开来,何者为实何者为虚,一目了然。

这,也是目前计算机视觉领域里面,一个非常美好的问题。

不过,这个除灵过程,没有灰飞烟灭的环节,实景和虚影都会好好地活着,且互不干扰。

现实主义表达方式

 中为CEILNet,右为伯克利

阴郁的街景,和阴郁的大叔,被神经网络的如炬目光,明明白白地洞察了。

并且,两者都保留了它们最纯粹的样子,没有交叠。

不过,漫长的旅途中,视角并非从一开始就那么清晰。

追影这个浪漫的问题,用数学符号来表示,是这样——

I∈ℝm×n×3,就是输入的含着倒影的图像。

 不是正确示范

图像(I),可以被建模成,透射层(T)与反光层 (R) 之和,即I = T + R。

目标是,把T层修复好,让原本想要的景色,不要受到R层的打扰。

这不是一个稳定、有唯一解 (well-posed question) 的问题,需要给一些额外的条件,才能更好地解决。

用几张图

以往的研究中,要去掉一幅图里的倒影,大多要输入好多幅图,或者需要得到人类清晰的指点。

可是,用几幅图来处理一幅图,很多时候是不现实的;需要人类的话,听起来也并不是那么厉害。

用一张图

最近,也有研究人员,实现了只需要单张图就能完成的除影术。

CEILNet,拿深度神经网络训练模型,用色彩和边缘的低层损失来训练的。但这种方法,不能直接让模型直接学习高层语义,这对捉影师来说,还是很遗憾的。

光有低层信息是不够的,特别是涉及到颜色模糊 (color ambiguity) ,或者是模型需要识别物体的时候。

本文的技术,就会识别灯啊,人脸啊这些物体的表征,并开心地除掉了它们的虚像。

疗效明显不同。

模型结构长这样

一个优秀的模型需要理解图像里的内容。

为了语义理解,团队用了hypercolumn特征——从一个用ImageNet数据集训练好的VGG-19网络上提取特征。

这样做的优点是,有用的特征,可以对输入的数据进行扩增。

另外,这个神经网络的感受野 (Receptive Field ) 很大,有513×513个像素,可以有效地聚集起五湖四海的图像信息。

神经网络的第一层,是个1×1的卷积,给特征降维用的,从(1472+3) 维降到64维。

后面跟着8层,都是3×3的扩张卷积 (Dilated Convolutions) ,扩张率从1到128不等。

所有的中间层,都有64个特征通道。

最后一层,用了一个线性变换,在RGB空间里,生成两幅图像。

损失函数很丰盛

特征损失

测量的是特征空间中,预测的透射层 (T) 和参考标准 (Ground Truth) 之间的距离。

低层高层信息结合起来,语义推理有助于分割图层。

把透射层(T) 跟参考标准都喂给VGG-19神经网络。

对抗损失

团队发现透射层的图像会受到色彩失真和残差的影响,才在损失函数里加上了这一项。

本环节的主角是CGAN,其中的判别模型,会识别真实透射图和生成透射层之间的差别。

通过训练,判别器会学到一个最适宜的损失函数,为下一步的分层优化打好基础,也让生成器的预测结果,更加接近真实。

Exclusion Loss

团队探索了一下透射层 (T) 和反光层 (R) 之间的差异——

研究人员发现,透射层和反光层的边缘,通常都不会重叠。

也就是说,一个边缘可能是T的,可能是R的,但不大会是它们共同所有的。

于是,团队把梯度域 (Gradient Domain) 里面,T层和R层的相关性降到最低,写出一个Exlusion Loss的函数。

其中,λT和λR这两个归一化因子 (Normalization Factors) 很重要,因为T层和R层之间,梯度幅值可能会不平衡——

R层如果比较模糊,梯度就小一些。

R层如果反射了强光,图上就会有一个非常亮的点,梯度则会很大。

数据集也虚实结合

训练数据,里面有5000幅合成图像,是用Flickr上随机找的10000张图两两合并,一为T层,一为R层。

假设两层处在不同的焦平面 (Focal Plane) 上,模糊度就有明显的差异。

还有,团队从90幅真实图像中提取了500个小块 (Patch) ,分辨率在256p-480p之间。

然后,要用无微不至的眼光观察图像——

·在室内还是户外
·光照条件,是日光还是白炽灯还是其他
·拍摄角度,是前视还是斜位照
·相机光圈,f/2.0— f/16

为了扩增数据,研究人员还随机调整了小块的尺寸,不过横纵比保持不变。

数据集建好之后,神经网络就要开始修行了。

训练过程中,数据跑了250次 (Epoch) ,批尺寸为1。

看看成绩

骄人的数据

来到测试阶段,团队先用PSNR和SSIM两套图像质量评价方法,来对比了一下自家神经网络,和前人算法生成的图像。

可喜可贺,伯克利的AI在两项比赛里,都获得了最高分。

另外,研究人员还在MTurk上搜集了人类观众的评价。

在两两对抗赛中,他们的图像先后战胜了只需输入一幅图的CEILNet,还有需要输入多幅图的Li and Brown。

这不是险胜,是80%以上的压倒性优势。

碾压了对手之后,就要感受一下损失函数里面,三项损失的表现如何——

又是经过SSIM和PRNS的鉴定,证实三者缺一不可,合体才能爆发最强的能量。

数据之外

比起数据,各位还是亲自审阅一下生成的图片,来得更实在。

先和CEILNet比一下,看T层,伯克利的小黄鸭坐的垫子上面,并没有灵异的影子了,因为影子比较完好地搬去了R层。

相比而言,对手的R层黑漆漆,该属于R层的部分,还以半透明的样子存在于T层。

后来,Li and Brown也加入了比赛,不过还是受到了伯克利AI的碾压。

虽然,那两位对手包包上印花,还是挺美的。

需要注意的是,伯克利的方法适用于各种环境下拍摄的图像,没有太多的限制条件,便于推广,这也是这只AI与其他选手之间,一个重要的不同。

One More Thing

最后,介绍下三位作者的履历,其中陈启峰博士,可能量子位的读者早已很熟悉。

张璇儿

一作:张璇儿(Cecilia Zhang),出生北京,人大附中高材生,本科学于莱斯大学,其后入学UC伯克利,师从吴义仁 (Ren NG) 教授,主攻计算机视觉方向,目前是博士三年级学生。

张璇儿先后在Adobe、Facebook实习,现在则在英特尔实习——与陈启峰一起工作。

吴义仁

二作:Ren Ng(吴义仁),加州大学伯克利分校的助理教授,璇儿就是在他的实验室里做研究。

Ren Ng出生在马来西亚,8岁移民澳大利亚。2006年斯坦福大学博士毕业,还获得了当年ACM的博士论文奖。

Ren Ng教授的主要研究方向是数字光场摄影技术,还创办了光场相机公司Lytro,把这项技术引入消费级电子产品。

陈启峰

三作:陈启峰,经历颇为传奇,1989年生于广东。

2006年,17岁的陈奇峰发表论文,提出数据结构Size Balanced Tree(SBT)。2008年,以中学生身份获得中山“十大杰出青年”称号。

2011年,陈启峰在ACM国际大学生程序设计竞赛获得金牌(全球第二,北美冠军)。同年还获得香港大学生编程比赛冠军。

2017年,陈启峰从斯坦福博士毕业。如今已是英特尔实验室研究员。

今年,陈启峰还成为了无人车明星创业公司Pony.ai研究院的访问教授,与之前他在IOI旅程中的楼天城等竞争对手,有了一段新故事。

CVPR论文在这里了:

Single Image Reflection Separation with Perceptual Losses

http://cn.arxiv.org/pdf/1806.05376

预祝大家,端午节除灵愉快。

加入社群

量子位AI社群17群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot7入群;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot7,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

照片有灵异鬼影?伯克利 x 陈启峰培育高能FCN“除灵师” | CVPR论文相关推荐

  1. 姚班系创业公司宸镜科技再获新融资,漆子超、陈启峰联手,OPPO入股加持“元宇宙”概念要火?...

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 国内堪称最强"明星光环"AR创业公司宸镜科技,刚刚完成成立2年来第三轮融资. 总额数千万美元,OPPO.斯道资本(Ei ...

  2. 姚班天才漆子超、IOI金牌得主陈启峰等联手进军AR领域:全员顶尖科技公司技术背景,打造“5G+AI+AR”先锋...

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 最新消息,AR领域又有明星玩家入局. 清华姚班毕业.IOI 2009金牌得主漆子超,斯坦福博士.IOI 2007金牌得主陈启峰均在联合创始人 ...

  3. 陈启峰:人工智能生成图像技术,未来或能取代电影特效

    2019年1月21日,<麻省理工科技评论>公布了2018年"35岁以下创新35人"(Innovators Under 35 China)中国区榜单.从榜单中,我们看到更 ...

  4. 港科夜闻|香港科大陈启峰教授:人工智能与深度学习交织-从竞赛开始,到无尽钻研...

    关注并星标 每周阅读港科夜闻 建立新视野 开启新思维 1.香港科大陈启峰教授:"人工智能与深度学习交织 - 从竞赛开始,到无尽钻研".人工智能与深度学习交织,未来的科技似乎将出现更 ...

  5. 逆转ISP,港科大陈启峰团队提出了可逆ISP

    编辑:Happy 首发:AIWalker Paper:https://arxiv.org/abs/2103.15061 code:https://github.com/yzxing87/Inverti ...

  6. 陈启峰 Size Balanced Tree

    今天上网搜索关于红黑树的资料时,发现一种新的平衡二叉树(SBT),据说各方面性能很好,先摘录在此,以后再细看. Size Balanced Tree(SBT)是一种平衡二叉查找树.它的论文由中国广东中 ...

  7. 港科夜闻丨香港科大陈启峰教授入选中国区“35岁以下科技创新35人”

    关注并星标 每周阅读港科夜闻 建立新视野 开启新思维 /近日要闻一览/ ▼ 1.香港科大陈启峰教授入选中国区"35岁以下科技创新35人".据中国科学网5月12日报道,香港科大工学院 ...

  8. size balanced tree (平衡二叉树) ----- 傻X树----陈启峰论文

    Size Balanced Tree(SBT)是一种平衡二叉查找树.它的论文由中国广东中山纪念中学的陈启峰于2006年底完成, 并在Winter Camp 2007中发表.由于SBT的拼写很容易找到中 ...

  9. 陈启峰SBT(Size Balanced Tree )平衡搜索二叉树

    http://wenku.baidu.com/view/40aa82c7aa00b52acfc7ca60.html 初学SBT,后附代码 转载于:https://www.cnblogs.com/huz ...

最新文章

  1. 安卓开发 高德地图 marker 点击移动位置_高德手机AR导航再升级,有惊喜
  2. 面试问了这两个问题,很多人的回答都自相矛盾
  3. python123期末测验答案程序题_python期末题库(2)带答案
  4. 矿Spring入门Demo
  5. arm linux 识别新硬盘_Arm发布首款64位实时处理器CortexR82
  6. java集合使用_java集合使用初步
  7. CentOS 6.5系统安装配置图解教程(详细图文)
  8. java web.xml 监听器_【JAVA 核心技术】java web 中的监听器
  9. 2021-10-07
  10. python程序实现excel排序_python初学—-实现excel里面读数据进行排序(改进算法)
  11. Python Numpy模块函数np.c_和np.r_学习使用
  12. ad18添加许可证无反应怎么回事
  13. OpenCV—python—OCR 通用表格自动校正与识别
  14. java实现远程桌面监控
  15. linux修改ems密码,HP-UX下EMS的使用说明
  16. srb (bug篇)
  17. 科略教育—太极拳理与企业家管理理念
  18. MSP432E401Y-用定时器中断控制LED闪烁
  19. 微信小程序最新获取头像以及昵称方法
  20. angular快速入门教程

热门文章

  1. 离破产仅一步之遥的A站,还能挺过去吗?
  2. winform调用websocket_C#基于websocket的前台及后台实时推送
  3. 爆赞!java生成文件
  4. java程序的开发工具是jdk,分享面经
  5. Android Studio属性动画,Android开发-RecyclerView-AndroidStudio(六)属性动画(3)AddDuration
  6. android数据库文件是否加密存储,详解Android数据存储之SQLCipher数据库加密
  7. abaqus失效单元删除_[转载]abaqus单元删除的一般方法
  8. 启动车子温车_什么是冷车启动
  9. 安卓 camera 调用流程_音视频开发之旅(四)Camera视频采集
  10. 扫地机器人滤网顺序_扫地机器人如何维护 扫地机器人维护技巧【介绍】