一直以来,计算科学家一直在为建立世界上最精确的计算机视觉系统孜孜不倦地努力着,但取得进展的过程却一直如马拉松竞赛般漫长而艰辛。近期,微软亚洲研究院实现的突破让他们成为了这场竞赛的最新领跑者。该团队所开发的基于深度卷积神经网络(CNN)的计算机视觉系统,在ImageNet1000挑战中首次超越了人类进行对象识别分类的能力。

该研究团队是微软亚洲研究院视觉计算组,他们开发了一个计算机视觉系统,该系统基于深度卷积神经网络(观察者网注:卷积神经网络,Convolutional Neural Networks,缩写为CNN,不是那个教老外在中国找女友的电视台的CNN哦)。该研究团队的论文名称较长:“Delving Deepinto Rectifiers: Surpassing Human-Level Performanceon ImageNet Classification”。论文中指出,他们的系统在ImageNet2012分类数据集中的错误率已降低至4.94%。此前同样的实验中,人眼辨识的错误率大概为5.1%。这个数据集包含约120万张训练图像、5万张验证图像和10万张测试图像,分为1000个不同的类别。微软研究员表示:“据我们所知,我们的研究成果是这项视觉识别挑战中第一个超越人类视觉能力的计算机系统。”

4人团队:孙剑、何恺明、张祥雨、任少卿

值得一提的是,完成这个研究的团队仅有4人,全部由中国人组成:2人为微软亚洲研究院研究员孙剑与何恺明,另外2人为实习生,分别是来自西安交通大学的张祥雨和中国科学技术大学的任少卿。

孙剑(资料图)

孙剑已在微软亚洲研究院工作了十二年,现任视觉计算组首席研究员。此前,他在西安交通大学获得了电气工程专业学士、硕士及博士学位。2001年,孙剑曾是沈向洋博士的学生。沈向洋目前担任微软全球执行副总裁,主管技术与研究,并且是微软亚洲研究院创始成员之一。这位因在计算机视觉及图像学领域建树卓著而当选IEEE Fellow(电气电子工程师学会院士)及ACM Fellow(美国计算机协会院士)的计算机科学家。

沈向洋对他昔日弟子所取得的成就感到非常自豪,他介绍说,“孙剑和我在2001年和西安交通大学郑南宁教授一起做的第一个项目是利用置信传播(belief propagation)进行立体重建。孙剑第一个将贝叶斯置信传播用来解决立体视觉问题并取得了当时最好的效果。孙剑的很多研究成果都成功应用到了微软的核心产品中。而他在更深层神经网络方面最新研究成果的潜力让我尤为兴奋和期待。”

孙剑将团队取得的最新成果归功于以下两项关键突破:一是开发了适应性更强的非线性神经元,二是改进训练算法,使得神经网络更为强大。

另一位主力何恺明也非等闲之辈,他是2003年广东省理科高考状元,本科就读于清华大学基础科学班,研究生就读于香港中文大学,第一篇论文,《Single ImageHaze Removalusing Dark Channel Prior》,被计算机视觉领域顶级会议CVPR接收并被评为年度最佳论文。

何恺明(资料图)

目标:能与人类视觉媲美,甚至比人类更准确

微软研究员在论文中指出,修正神经元(rectifierneuron)是近期将深度神经网络应用于计算机视觉挑战时取得成功的关键要素之一。

研究人员表示:“在本论文中,我们从两个方面对主要由修正神经元驱动的神经网络进行了研究。首先,我们生成了一种新的修正线性单元(ReLU),并将其称为参数化修正线性单元(PReLU)。该激活函数不仅可自适应获取修正参数,还可提高计算精度,且所需额外计算成本几乎可以忽略不计。其次,我们研究了深度修正模型的训练难度。我们通过对修正线性单元(即ReLU/PReLU)的非线性特征进行直接建模,推导出一种符合理论的初始化方法,并直接从头开始训练网络,将其应用于深度模型(例如,具有30个带权层的模型)的收敛过程。这为我们探索功能更强大的网络体系结构提供了更多的灵活性。”

这个数据集包含约120万张训练图像、5万张验证图像和10万张测试图像,分为1000个不同的类别(来源:微软亚洲研究院)

该研究团队虽然对其算法超越人类视觉识别极限感到兴奋不已,但与该领域的其他研究人员一样,研究团队成员也强调,计算机视觉目前从根本上仍无法与人类视觉相比。计算机系统在识别物体、理解图像上下文及场景高级信息等领域仍面临诸多挑战。

“虽然我们的算法基于该特定的数据集得出了极为理想的结果,但这并不表明在对象识别领域机器视觉普遍优于人类视觉。某些对于人类来说轻而易举的基本对象类别的识别,机器识别仍然存在明显错误。尽管如此,我们的研究结果表明机器算法在众多视觉识别任务上具有巨大的发展潜力。”

“人类可以毫不费力地区分出一只羊和一头牛。但计算机在执行这些简单任务时却不尽完美,”孙剑解释道。“但是,当涉及到不同品种的羊的区分时,计算机可超越人类。通过训练,计算机可观察图像的细节、纹理、形状及环境,并发现人类无法察觉出的区别。”

微软研究团队的工作并不仅仅局限于基础研究,其多项成果已被应用到微软的产品和服务中,包括必应图片搜索及微软云存储解决方案OneDrive。在近期的一篇博文中,微软OneDrive项目经理Douglas Pearce介绍了OneDrive自动识别照片内容的功能。

“OneDrive会自动为用户上传的照片创建标签,比如人、狗、沙滩、落日等等,使用户借助标签能够更轻松地寻找到自己的图片。有了这项功能,我们向演示项目中添加照片、与家人重温特殊回忆,或与Facebook好友分享重要时刻就变得轻而易举。”Pearce如是说。

想要了解此项技术背后原理的读者可阅读微软研究院去年发布的专题文章。该文章介绍了来自同一研究团队的研究成果,他们在保持准确性不变的条件下将深度学习目标检测系统加速了多达100倍。该团队的科研进展记录于题为“Spatial Pyramid Poolingin Deep Convolutional Networks for Visual Recognition”研究论文中。

“微软亚洲研究院视觉计算研究组一直致力于推动计算机视觉研究的前沿发展,终极目标是使计算机能够模拟出人类的感知能力。我对研究组多年来所取得的成就深感自豪,他们不仅以高质量的论文取得了学术界的认可,而且通过将这些技术转化到了微软的多个核心产品中。”微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士说道。

2010年,来自斯坦福大学、普林斯顿大学及哥伦比亚大学的科学家们启动大规模视觉识别挑战赛(Large Scale Visual Recognition Challenge),推动了计算机视觉识别挑战的持续发展。科技行业知名记者John Markoff于2014年8月在《纽约时报》上刊登文章指出,2014年计算机识别挑战的目标识别准确率几乎提升了一倍,图像分类错误率也减少了一半。最近,百度的研究人员在其论文中宣称,以ImageNet对象分类为基准,百度的计算机视觉系统实现了前五选5.33%的错误率。

关于计算机视觉的挑战仍在继续,今年的挑战赛将于12月启动。但这并不是孙剑、何恺明及其研究团队的关注重点。“我们的目标是在众多应用上开发出能与人类视觉媲美,甚至比人类更准确的计算机视觉系统,”孙剑说道。“如要实现这一目标,我们需要更多的训练数据和更加真实的测试场景。我们在必应、OneDrive和其他服务平台上的工作将帮助我们进一步改善算法的鲁棒性(观察者网注:鲁棒性,即强壮性,Robust)。”

微软亚洲研究院4人团队完成视觉识别里程碑式突破相关推荐

  1. 微软亚洲研究院王井东:下一代视觉识别的通用网络结构是什么样的?

    [导读]本文主要为大家分享一下微软亚洲研究院首席研究员王井东在新一代视觉识别网络结构上的研究成果. 王井东介绍,目前学界的网络结构都是围绕分类任务而延伸,除了分类以外,在计算机视觉里面还有其它的重要任 ...

  2. AI一分钟 | 微软将成立微软亚洲研究院上海分院;阿里AI鉴黄师能判别呻吟声

    ▌京东金融更名"京东数科",官方:更体现公司定位 "京东金融"官方微博.头条.抖音于 17 日晚间更改名称为"京东数科".就此,京东金融回应 ...

  3. 微软亚洲研究院周明:从语言智能到代码智能

    来源:NewBeeNLP本文约1600字,建议阅读5分钟本文介绍了微软亚洲研究院自然语言计算组在该研究领域的一系列最新进展. 微软亚洲研究院副院长周明老师报告:From Language Intell ...

  4. 2015年微软亚洲研究院的惊艳项目,人工智能抢眼

    2015年微软亚洲研究院的惊艳项目,人工智能抢眼 发表于2015-12-01 14:20| 949次阅读| 来源CSDN| 6 条评论| 作者钱曙光 机器学习微软亚洲研究院人工智能大数据数据库云计算深 ...

  5. ICCV 2021 | 带你了解微软亚洲研究院CV领域前沿进展

    关注公众号,发现CV技术之美 (本文阅读时间:21分钟) 编者按:2021年计算机视觉领域顶级会议 ICCV 于10月11日至17日在线上正式召开.此次大会共收到6236篇投稿,其中1617篇论文被接 ...

  6. ECCV 2020 | 微软亚洲研究院精选论文摘录

    编者按:ECCV(European Conference on Computer Vision)是计算机视觉领域的三大顶会之一.今年的 ECCV 大会于8月23日至28日在线上举行.微软亚洲研究院在本 ...

  7. 中国AI半壁江山:微软亚洲研究院20年20大创业公司

    转自:量子位 (公众号 ID: QbitAI)授权转载,转载请联系出处. △ 当年.图片来自@MSFTResearch 微软亚洲研究院(MSRA)20周岁了. 这20年里,发表论文5000多篇,和30 ...

  8. 关于 AIOps 的过去与未来,微软亚洲研究院给我们讲了这些故事

    作者 | 贾凯强 出品 | AI科技大本营(ID:rgznai100) 在过去的15年里,云计算实现了飞速发展,而这种发展也为诸多的前沿技术奠定了基础,AIOps便在此环境中获得了良好的发展契机.在数 ...

  9. 微软亚洲研究院成立OpenNetLab,探索以“数据为中心”AI网络研究新范式!

    2020年12月18日,微软亚洲研究院宣布联合清华大学.北京大学.南京大学.兰州大学.新加坡国立大学.首尔国立大学等多所亚洲地区高校,成立OpenNetLab开放网络平台联盟. OpenNetLab官 ...

最新文章

  1. 有这10个特征的项目领导者做的项目,失败率增加60%
  2. yii2 pdo mysql 乱码_YII2.0使用PDO连接Oracle库查询结果中文显示乱码问题
  3. mysql升级回退_Mysql 升级、用户与授权,
  4. 运行一个Hadoop Job所需要指定的属性
  5. 乐高ev3搭建图_乐高EV3机械爪合集
  6. dubbo 自定义路由_爱奇艺在 Dubbo 生态下的微服务架构实践
  7. 红橙Darren视频笔记 自定义sidebar 自定义View ViewGroup套路
  8. 【线性代数公开课MIT Linear Algebra】 第六课 AX=b与列空间、零空间
  9. php 加载库文件_php 如何调用dll文件内接口,求大神帮忙谢谢。
  10. 登录日志怎么实现_运维必看:日志标准化必须面对的 4 类问题
  11. python tornado 模板扩展
  12. C++--第19课 - 专题三经典问题解析
  13. Django访问静态资源
  14. 配置MatConvNet
  15. win10如果虚拟化服务器,Win10内置虚拟化技术Virtualization在哪里 Win10查看CPU是否支持VT步骤...
  16. Autojs对接图灵机器人
  17. html编辑中,出现报错 semi-.colon excepted css(………)
  18. 【程设作业】魔兽世界三:开战
  19. 一个视频发布在三个平台上,可以赚三份收益,自媒体如何发布视频
  20. python——列表定义及方法

热门文章

  1. java的 x跟x_关于语法:java中的x ++和++ x有区别吗?
  2. python 使用you-get批量下载视频
  3. Webix - JavaScript UI 9.2.0
  4. How to Haartraining.
  5. 家庭自动化系统软件的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告
  6. Springboot银行客户管理系统 毕业设计-附源码250903
  7. 软件开发部门的团队组成
  8. 基于php办公用品网上商城的设计与实现(含源文件)
  9. Excel技巧:如何将空格分隔的一组数据粘贴到excel为列
  10. 基于单片机的十字路口交通灯课程设计