微软研究员在ImageNet计算机视觉识别挑战中实现里程碑式突破

微软亚洲研究院

2015年2月11日

本文翻译自：Microsoft Researchers' Algorithm Sets ImageNet Challenge Milestone

一直以来，计算科学家一直在为建立世界上最精确的计算机视觉系统孜孜不倦地努力着，但取得进展的过程却一直如马拉松竞赛般漫长而艰辛。近期，微软亚洲研究院视觉计算组实现的突破让他们成为了这场竞赛的最新领跑者。该团队所开发的基于深度卷积神经网络（CNN）的计算机视觉系统，在ImageNet 1000挑战中首次超越了人类进行对象识别分类的能力。

微软研究团队在题为“Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”的论文中指出，他们的系统在ImageNet 2012分类数据集中的错误率已降低至4.94%。此前同样的实验中，人眼辨识的错误率大概为5.1%。这个数据集包含约120万张训练图像、5万张验证图像和10万张测试图像，分为1000个不同的类别。微软研究员表示：“据我们所知，我们的研究成果是这项视觉识别挑战中第一个超越人类视觉能力的计算机系统。”

该研究团队由微软亚洲研究院研究员孙剑、何恺明以及来自西安交通大学和中国科学技术大学的实习生张祥雨和任少卿组成。

孙剑已在微软亚洲研究院工作了十二年，现任视觉计算组首席研究员。此前，他在西安交通大学获得了电气工程专业学士、硕士及博士学位。2001年，孙剑曾是沈向洋博士的学生。沈向洋目前担任微软全球执行副总裁，主管技术与研究，并且是微软亚洲研究院创始成员之一。这位因在计算机视觉及图像学领域建树卓著而当选IEEE Fellow（电气电子工程师学会院士）及ACM Fellow（美国计算机协会院士）的计算机科学家，对他昔日弟子所取得的成就感到非常自豪。

“孙剑和我在2001年和西安交通大学郑南宁教授一起做的第一个项目是利用置信传播(belief propagation)进行立体重建。孙剑第一个将贝叶斯置信传播用来解决立体视觉问题并取得了当时最好的效果。” 沈向洋对孙剑在微软所取得的成就倍感骄傲。“孙剑的很多研究成果都成功应用到了微软的核心产品中。而他在更深层神经网络方面最新研究成果的潜力让我尤为兴奋和期待。”

孙剑将团队取得的最新成果归功于以下两项关键突破：一是开发了适应性更强的非线性神经元，二是改进训练算法，使得神经网络更为强大。

微软研究员在论文中指出，修正神经元 (rectifier neuron)是近期将深度神经网络应用于计算机视觉挑战时取得成功的关键要素之一。

研究人员表示：“在本论文中，我们从两个方面对主要由修正神经元驱动的神经网络进行了研究。首先，我们生成了一种新的修正线性单元（ReLU），并将其称为参数化修正线性单元（PReLU）。该激活函数不仅可自适应获取修正参数，还可提高计算精度，且所需额外计算成本几乎可以忽略不计。其次，我们研究了深度修正模型的训练难度。我们通过对修正线性单元（即ReLU/PReLU）的非线性特征进行直接建模，推导出一种符合理论的初始化方法，并直接从头开始训练网络，将其应用于深度模型（例如，具有30个带权层的模型）的收敛过程。这为我们探索功能更强大的网络体系结构提供了更多的灵活性。”

该研究团队虽然对其算法超越人类视觉识别极限感到兴奋不已，但与该领域的其他研究人员一样，研究团队成员也强调，计算机视觉目前从根本上仍无法与人类视觉相比。计算机系统在识别物体、理解图像上下文及场景高级信息等领域仍面临诸多挑战。

“虽然我们的算法基于该特定的数据集得出了极为理想的结果，但这并不表明在对象识别领域机器视觉普遍优于人类视觉。某些对于人类来说轻而易举的基本对象类别的识别，机器识别仍然存在明显错误。尽管如此，我们的研究结果表明机器算法在众多视觉识别任务上具有巨大的发展潜力。”

“人类可以毫不费力地区分出一只羊和一头牛。但计算机在执行这些简单任务时却不尽完美，”孙剑解释道。“但是，当涉及到不同品种的羊的区分时，计算机可超越人类。通过训练，计算机可观察图像的细节、纹理、形状及环境，并发现人类无法察觉出的区别。”

微软研究团队的工作并不仅仅局限于基础研究，其多项成果已被应用到微软的产品和服务中，包括必应图片搜索及微软云存储解决方案OneDrive。在近期的一篇博文中，微软OneDrive项目经理Douglas Pearce介绍了 OneDrive自动识别照片内容的功能。

“OneDrive会自动为用户上传的照片创建标签，比如人、狗、沙滩、落日等等，使用户借助标签能够更轻松地寻找到自己的图片。有了这项功能，我们向演示项目中添加照片、与家人重温特殊回忆，或与Facebook好友分享重要时刻就变得轻而易举。”Pearce如是说。

想要了解此项技术背后原理的读者可阅读微软研究院去年发布的专题文章。该文章介绍了来自同一研究团队的研究成果，他们在保持准确性不变的条件下将深度学习目标检测系统加速了多达100倍。该团队的科研进展记录于题为“Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition”研究论文中。

“微软亚洲研究院视觉计算研究组一直致力于推动计算机视觉研究的前沿发展，终极目标是使计算机能够模拟出人类的感知能力。我对研究组多年来所取得的成就深感自豪，他们不仅以高质量的论文取得了学术界的认可，而且通过将这些技术转化到了微软的多个核心产品中。”微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士说道。

2010年，来自斯坦福大学、普林斯顿大学及哥伦比亚大学的科学家们启动大规模视觉识别挑战赛（Large Scale Visual Recognition Challenge），推动了计算机视觉识别挑战的持续发展。科技行业知名记者John Markoff于2014年8月在《纽约时报》上刊登文章指出，2014年计算机识别挑战的目标识别准确率几乎提升了一倍，图像分类错误率也减少了一半。最近，百度的研究人员在其论文中宣称，以ImageNet对象分类为基准，百度的计算机视觉系统实现了前五选5.33%的错误率。

关于计算机视觉的挑战仍在继续，今年的挑战赛将于12月启动。但这并不是孙剑、何恺明及其研究团队的关注重点。“我们的目标是在众多应用上开发出能与人类视觉媲美，甚至比人类更准确的计算机视觉系统，”孙剑说道。“如要实现这一目标，我们需要更多的训练数据和更加真实的测试场景。我们在必应、OneDrive和其他服务平台上的工作将帮助我们进一步改善算法的鲁棒性。”

微软研究员在ImageNet计算机视觉识别挑战中实现里程碑式突破相关推荐

残差学习，152层网络，微软夺冠2015 ImageNet计算机视觉识别挑战
美国东部时间2015年12月10日,微软亚洲研究院视觉计算组在2015 ImageNet计算机识别挑战赛中凭借深层神经网络技术的最新突破,以绝对优势获得图像分类.图像定位以及图像检测全部三个主要项目的 ...
微软亚洲研究院4人团队完成视觉识别里程碑式突破
一直以来,计算科学家一直在为建立世界上最精确的计算机视觉系统孜孜不倦地努力着,但取得进展的过程却一直如马拉松竞赛般漫长而艰辛.近期,微软亚洲研究院实现的突破让他们成为了这场竞赛的最新领跑者.该团队所开 ...
基于AI的计算机视觉识别在Java项目中的使用（三） —— 搭建基于Docker的深度学习训练环境
深度学习在哪里? 我们已然生活在数字时代,一天24小时我们被数字包围.我们生活中的方方面面都在使用数字来表达.传递.存储.我们无时无刻不在接收数字信息,而又无时无刻不在生产数字信息. 在数字世界中,可 ...
微软研究院分享：计算机专业求职的正确姿势
省时查报告-专业.及时.全面的行研报告库省时查方案-专业.及时.全面的营销策划方案库 [免费下载]2022年8月份热门报告盘点 [高清在线]2022最高分国产电影:<隐入尘烟>为什么说产 ...
计算机视觉识别简史：从 AlexNet、ResNet 到 Mask RCNN
点上方计算机视觉联盟获取更多干货仅作学术分享,不代表本公众号立场,侵权联系删除转载于:数据派THU AI博士笔记系列推荐周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 ...
一颗被冷冻了五年的头颅被它一眼认出计算机视觉识别让尸骨开口说话
一位背负三条人命的东北僧人四处逃亡,改头换面,最后竟被"人工智能"识破.大数据文摘今日推荐"每日人物(ID:meirirenwu)"的一篇文章,它讲述了人工智能 ...
计算机视觉识别技术研究
计算机视觉识别概述计算机视觉识别(computer vision):用计算机来模拟人的视觉机理获取和处理信息的能力.就是指用摄影机和电脑代替人眼对目标进行识别.跟踪和测量等机器视觉,并进一步做图形处 ...
8个计算机视觉深度学习中常见的Bug
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自|人工智能与算法学习导读给大家总结了8个计算机视觉深度 ...
微软在你的计算机里隐藏的秘密
看看吧!微软在你的计算机里隐藏的秘密!他们了防止人们发现这些隐藏的文件而尽了多大的努力! 在你的计算机里有很多微软试图隐藏的文件目录.在这些目录中你会(主要)发现有这样两种东西:Microsoft I ...

微软研究员在ImageNet计算机视觉识别挑战中实现里程碑式突破

微软研究员在ImageNet计算机视觉识别挑战中实现里程碑式突破相关推荐

最新文章

热门文章