李林 发自 凹非寺
量子位 出品 | 公众号 QbitAI

人类有一种非常强大的能力:脑补。

这张照片在人类眼中,左下角的一小片棕黄黑灰就是一匹活生生的马——这个姿势和场景,当然是骑马啦!

但对于大部分的算法来说,图上有两个人,就是两个人,谁知道左下角那团东西是什么,谁知道他们俩在干~什~么~

一篇新鲜出炉的CVPR 2018论文Iterative Visual Reasoning Beyond Convolutions,就尝试着将人类的“脑补”能力带到算法中。

会脑补的算法

这项研究由卡耐基梅隆大学(CMU)和Google合作完成,作者有Facebook研究员陈鑫磊(论文是他博士毕业前完成的)、Google的李佳和李飞飞、以及陈鑫磊的导师Abhinav Gupta。

他们所研究的“脑补”能力,按论文中比较严谨学术正式的说法,是对空间和语义的视觉推理。有了这种能力,计算机就能在一张图像中准确识别更多的物体。

比如说面对这样一个场景,没有空间语义推理能力的算法只能凭车的形状轮廓来辨认它是小汽车还是大巴,在上面的窗户中,也只能认出没被遮挡的那些。

借助空间推理,和三扇窗户排成一排又被局部遮挡住的那个物体,也会被认作是窗户;借助语义推理,通身黄色上面还带灯牌的大巴,就会被识别成校车;空间和语义推理结合起来,算法就能认出小汽车窗户里那个模模糊糊的影子,其实是个人。

我们来看一看比较具体的例子:

比如上图,深蓝色标注的“鼠标”,就是普通神经网络识别不出来,而这种会脑补的新方法能识别出来的。它在图上很模糊,分辨率非常低,但是可以根据周围的物体推断出来。

根据图中的洗衣机,也可以推断出深蓝色标出的洗涤剂槽。

同样一张图像,会脑补的算法从中认出的物体,就比普通神经网络更多。也就是说,它从图像上框出各个物体并识别出来的能力更好。

论文的极为作者用“框出物体并识别”的区域分类任务,给这种脑补算法跑了个分:

与普通的卷积神经网络相比,这种模型在ADE数据集上,每类平均准确率提升了8.4%,而增加网络深度只能提升1%左右。在COCO数据集上,这种模型能将准确率提升3.7%。

怎么做到的?

他们在普通的卷积神经网络上,加上了一个视觉推理框架,由两个核心模块组成:一个是局部模块,运用空间记忆来存储之前的认识,用卷积神经网络来推理;一个是全局模块,基于图进行推理,将区域和类视为图中的节点,通过在它们之间传递信息来进行推理。

详细来说,全局模块有三个部件,一个以类别为节点的知识图谱,一个以图像中的区域为节点、以区域间的空间关系为边界的区域图,和一个为区域分配类别的分配图。

最终,所有模块每次迭代的预测和注意力机制结合起来,就得出了最终的预测结果。

失败花絮

当然,也有失败的时候。

比如说床头柜上可能会放个遥控器这件事,这个算法就和普通的卷积神经网络一样get不到。

学神(们)

这篇论文的四位作者中,二三作是你们非常熟悉的两位女神李佳和李飞飞啦,现在都在Google的云计算部门。两位的履历和成就,大概也不需要量子位再讲一遍了。

四作Abhinav Gupta是卡耐基梅隆大学计算机系副教授,目前主要在研究如何表征视觉世界、语言和视觉之间、行为与对象之间如何联系等问题。

一作陈鑫磊,是众多同学大概都会很崇拜的学神榜样。

这位小哥哥今年2月在卡耐基梅隆大学(CMU)获得了博士学位,现在是Facebook AI研究院的研究员。在浙江大学读本科的时候,他就已经发表过AAAI、CVPR、CIKM等顶会论文了。

读博期间,他先后在微软研究院、Google VisCAM组和Google Cloud AI团队实习过。

他的博士学位论文Visual Knowledge Learning,研究了图像的背景知识在计算机视觉系统理解图像过程中的重要性。这篇论文比较系统地论述了计算机如何自动化、可扩展地学习显式和隐式视觉知识,以及如怎样运用视觉知识来推理。

来这里,可以系统地膜拜一下学神:http://xinleic.xyz/

最重要的是

论文地址,当然必不可少~https://www.arxiv-vanity.com/papers/1803.11189/

以及小哥哥的博士论文地址:http://xinleic.xyz/papers/thesis.pdf

加入社群

量子位AI社群15群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot6入群;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot6,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。


量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


AI学会了视觉推理,“脑补”看不清的物体 | 李佳李飞飞等的CVPR论文相关推荐

  1. 2018年AI趋势盘点(02)| Hinton、吴恩达、李飞飞…… | 解读行业

    善用智能之道,请您点击上方蓝色字体,欢迎关注:九三智能控 懒人阅读:2017年被定义为AI的史诗年,九三觉得17年确实引爆了AI,同时泡沫也存在不少,18年的AI将更加务实技术更加接近真实场景.可以确 ...

  2. 女神被打码了?一笔一划脑补回来,效果超越Adobe | 已开源

    栗子 晓查 发自 凹非寺  量子位 出品 | 公众号 QbitAI 女神的照片花得像个二维码,心不心痛,着不着急? 你需要一位PS高手. 或者,一只AI. 上面这个毫不违和的修复成果,就出自一个今年新 ...

  3. AI女神李飞飞:成为顶尖科学家的人生路

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 作者丨德先生@知乎 来源丨https://zhuanlan.zhihu.com/p/44331 ...

  4. 王海峰、李飞飞、山世光、王井东、汪玉……众多AI华人学者入选2022 IEEE Fellow...

    来源:机器之心 北京时间 11 月 24 日凌晨,IEEE 公布了 2022 年度新一届会士的入选完整名单. IEEE 全称是美国电子电气工程师学会(Institute of Electrical a ...

  5. 李飞飞:我怎样走上AI研究之路

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源:cnbc 编辑:肖琴 转载自:新智元 [导读]近日,李飞飞接受CNBC专访,针对AI未来的发展方 ...

  6. Neurons字幕组 | 2分钟带你看懂李飞飞论文:神经网络是怎样给一幅图增加文字描述,实现“看图说话”的?(附论文下载)

    Neurons字幕组出品 翻译|智博校对|龙牧雪 时间轴|虫2后期| Halo 项目管理|大力 Neurons字幕组 第四期作品震撼来袭! Neurons字幕组源自英文单词Neuron,一个个独立的神 ...

  7. 重磅!李飞飞入选美国国家医学科学院,她用AI改变了医疗

    ↑ 点击蓝字 关注视学算法 作者丨小匀 来源丨新智元 编辑丨极市平台 昨晚,美国国家医学科学院(National Academy of Medicine)宣布了新入选的90名正式成员和10名国际成员. ...

  8. 如何理解李飞飞价值十亿美金的“人文AI”计划 ?

    https://www.tmtpost.com/3850181.html?rss=toutiao2 摘要: 以往我们总觉得,技术永远只是研发者和应用之间的故事.如今看来,或许AI已经成为了一个世界命题 ...

  9. 李飞飞重回斯坦福,Andrew Moore接手谷歌云AI

    来源:网络大数据 6 月,海外媒体爆出「李飞飞或将离开谷歌重返斯坦福」;两周前,CMU 官方发布消息称 CMU 计算机学院院长 Andrew Moore 即将离职. 今日,谷歌云博客发布的信息最终把二 ...

最新文章

  1. Mysql学习总结(5)——MySql常用函数大全讲解
  2. 榜单:全球 35 位 35 岁以下科技创新青年
  3. LeetCode 628. Maximum Product of Three Numbers
  4. 解决 An invalid domain was specified for this cookie
  5. spring整合atomikos实现分布式事务的方法示例_分布式事务一:基于数据库原生分布式事务方案实现...
  6. python3怎么用_当同时安装Python2和Python3后,如何兼容并切换使用详解(比如pip使用)...
  7. win32 destroywindow函数
  8. linux安装btsync
  9. 用ps制作android日历步骤,PS设计制作日历
  10. 淘宝API JAVA 乱码
  11. MSP430F149IPMR
  12. 如何从零开始写一个操作系统?
  13. 加拿大首个以女性名字命名的工程学院:商界领袖Gina Cody向蒙特利尔康考迪亚大学捐赠1500万加元,创造历史
  14. 消失的2000万辆小黄车去哪儿了?
  15. 什么是802.11ax(Wi-Fi 6)
  16. 团队博客-第六周:Alpha阶段项目复审(科利尔拉弗队)
  17. scala学习笔记:各种奇怪的写法
  18. 网路视屏学习资源共享
  19. 完整性+存储过程和函数——CHECK / CONSTRAINT / TRIGGER / PROCEDURE/ FUNCTION
  20. mySQL中stuff,sql stuff函数的语法和作用

热门文章

  1. 架构师必备!分布式高并发都不会还做Java程序员
  2. oracle 查看 统计更新时间,oracle查看和更新统计表的信息
  3. pixel1代android11,Pixel用户吐槽Android 11:升级后性能被劣化
  4. 测试设备和Android机怎么传递消息,在运行2.3的设备上进行测试时,android-Activit......
  5. python磁盘空间_python3实现磁盘空间监控
  6. pycharm安装怎么选_安装新风系统,地送风和顶送风哪种?专业师傅分析,不纠结怎么选...
  7. 10分钟学会vuex
  8. 错误票据java_【蓝桥杯】错误票据 - osc_bskh1wlw的个人空间 - OSCHINA - 中文开源技术交流社区...
  9. java map转xml 工具类_xml和map互转工具类
  10. c语言const 修饰二级指针,C++中const修饰二级指针(从类型‘int**’到类型‘const int**’的转换无效)...