转自:http://www.sohu.com/a/201822261_473283

【新智元导读】物体分割(instance segmentation)是如今视觉领域最热最核心的一个问题。在这届国际图像识别权威竞赛MS COCO当中,香港中文大学团队UCenter取得了物体分割任务第一名,相对去年的冠军,团队取得了9.1个点的提升,相对提升达24%。他们通过深度剖析FPN、Mask R-CNN、PSPNet的信息传递机制,提出了多路网络(Multi-Path Network),旨在更好地运用网络信息。

10月29日,在威尼斯水城举行的ICCV 2017“Joint COCO and Places Recognition Challenge” Workshop落下帷幕,来自Facebook、MSRA(微软亚洲研究院)、Google、商汤科技、旷视科技等科技公司以及卡耐基梅隆大学、香港中文大学,上海交通大学、中国科学院自动化研究所等顶级高校的多支团队参加了本次竞赛。

经过激烈角逐,由香港中文大学在读博士生、商汤科技研究员组成的“UCenter”团队超过微软亚洲研究院与Facebook FAIR团队,拿下了COCO实例分割(instance segmentation)任务的第一名。这是COCO比赛最难的问题之一,因为需要分割每一个像素,判断这个像素属于哪一个类别哪一个实例。相对去年的冠军,UCenter团队取得了9.1个点的提升,相对提升达24%。

此外,在COCO物体检测任务中,UCenter团队拿到了亚军,相对去年冠军,提升了9.5个点,相对提升22%。

团队组成,参加大规模公开比赛任务练手练兵

“UCenter”团队由刘枢、亓鲁、秦海芳、石建萍和贾佳亚组成。贾佳亚教授是香港中文大学终身教授,腾讯优图实验室杰出科学家。石建萍博士是贾佳亚教授以前的博士生,现就职于商汤科技。刘枢、亓鲁是香港中文大学的在读博士生,也是贾佳亚教授现在的学生,石建萍博士是他们的Mentor。秦海芳参与比赛时是商汤科技的实习生。

参与这个比赛是石建萍与其博士导师贾佳亚教授一起计划的联合培养课题。他们都认为,类似COCO这样的大规模公开比赛任务,不仅是验证算法的边界,提炼真正有用技术方案一个很好的平台,更是培养和锻炼学生极好的练兵场。

刘枢对实例分割这个任务相对比较熟悉,因为这个方向是他在贾老师组内攻读PhD的主要研究方向。亓鲁与秦海芳则是刚刚接触使用深度学习解决物体检测与实例分割这个任务。商汤科技宽松友好的学术氛围以及远超高校实验室的计算资源为同学们的算法研究提供了有力支持,也帮助几位同学的成长。

香港中文大学贾佳亚教授的视觉研究组在今年也有相当不错的ICCV论文发表。在之前的报道里提到,他的学生在腾讯优图实习或工作期间共同合作发表了三篇ICCV oral论文(每篇接受率只有2.1%)。一键卸妆的黑科技也出自此他们在腾讯的工作。

除此之外,在去年最大的ImageNet场景分析比赛(scene parsing challenge 2016),他们刚进入第二年的博士生赵恒爽就以主力参与者身份,通过在商汤的暑期实习和与其他学生和商汤研究员的合作,取得第一名,比基准方法有了差不多10个点的提升。此方法在当时最大的道路场景分割数据集上(Cityscapes testing set)也是排名第一。除此之外,贾佳亚中文大学视觉研究组里的同学现在每年有很多机会在全球各个业界顶尖研究院和高校交流和实习。

COCO-17 实例分割第一名算法细节:多路网络(Multi-Path Network)

在本次的COCO竞赛中,与其他参赛团队一样,UCenter团队以Mask R-CNN作为实例分割的基础框架。不同的是,他们通过深度剖析FPN、Mask R-CNN、PSPNet的信息传递机制,提出了多路网络(Multi-Path Network),旨在更好地运用网络信息。他们的改变主要集中在以下三点。

首先,与传统FPN中按照物体候选区域大小将其分配到对应层级特征图上的方式不同,他们将物体候选区域映射到所有的特征层级去获取对应的特征,将其融合之后供后续分类网络使用。UCenter团队发现,对于每个候选区域,不同层级的信息都是有用的,采用这样的方法,相比传统FPN,大物体能够获取底层的细节信息,小物体可以获取更多由高层更大感受野提供的上下文信息,在候选区域内不同层级上面有用的信息可以被有效利用。

其次,他们发现,低层级的特征图对预测大物体也是十分有效。于是他们在FPN的基础上,增加了一个自下而上的分支,帮助更好的传递底层信息到最高层级。低层级特征在之前的工作中也有被应用,但基本都是为了预测小物体或者精细化一些细节,而低层级特征对于大物体的作用在之前并没有被很认真地探讨过。

最后,在掩膜预测的部分,他们也进行了改进。在Mask R-CNN中,进行掩膜预测的是一个小的全卷积网络,这样速度快,而且特征都可以直接对齐到图片。但是他们发现,全连接层与全卷积层是有一些互补的特征,比如全卷积层是位置敏感的,不同的位置的预测是由不同的参数给出的,而且每个位置的预测都是基于全局信息。于是,他们将这两种网络结合在一起进行掩膜的预测,从而得到更高质量的结果。

这些改变使训练的网络在不同大小的物体上面取得更为显著的提高,相应的技术细节也即将投稿于CVPR2018。

值得一提的是,UCenter团队并没有在超参方面进行精调,而是直接采用Mask RCNN和FPN的文章中的超参,相信他们更希望通过使用更好的模型而不是更好的超参取胜。他们使用的初始模型也全部来源于网络上已经开源的模型。

他们也提到,现在GPU的显存已经成为模型效能提升的一个瓶颈。他们在比赛期间主要使用的是TitanXP,只有12G显存,即使使用了sublinear memory optimization的方法优化显存占用,使用大型初始网络时,显存压力依然很大。为了能够充分使用这些机器,他们使用较小的图片进行训练,更贴近工业界实际生产和应用环境需求。基于小型初始网络的经验,他们相信使用完整的图片以及更大尺度训练,模型性能会得到进一步提升。

UCenter团队成员表示,在CVPR截稿之后,他们会整理代码并将其开源,分享给更多的计算机视觉工作者、爱好者。

新智元世界人工智能大会,贾佳亚教授分享计算机视觉新认知

11月8日,在新智元AI World 2017世界人工智能大会上,贾佳亚教授将发表演讲,分享计算机视觉的新认知。

贾佳亚教授介绍说:“计算机视觉的研究和应用经历了一个长时间的发展,其中有一大段时间是不被企业界重视的。

“在这个演讲中,我会把先进的计算机视觉研究成果做一个重新划分和归类,展示给大家一个有很多具体内容的视觉研究画卷。一直以来,我们都在创新;所以我也会给大家看到新的有趣的应用,同时拨开云遮雾绕,还原视觉AI的技术真实水平。最后我也会和大家介绍腾讯优图实验室视觉AI的发展。”

贾佳亚 腾讯优图实验室杰出科学家

香港中文大学终身教授贾佳亚博士加盟腾讯优图实验室。作为杰出科学家,贾佳亚教授将负责计算机视觉、图像处理、模式识别、机器学习等人工智能领域的研 究,及人工智能与各种应用场景结合的深度探索。

贾佳亚教授是香港中文大学终身教授,拥有香港科技大学联合微软亚洲研究院计算机 科学博士学位。加入腾讯前,贾佳亚教授曾与微软研究院、谷歌、高通、英特尔、Adobe 等图像和人 工智能研究机构开展过深度联合研究工作。他是前期和中期计算机视觉最著名的专家 之一。在香港中文大学任职期间,他创立的视觉实验室对图像滤波、图像去模糊、图像增强、图像稀疏处理、多频段图像信号的融合,以及大范围运动估计等研究做出了 巨大的贡献。其中,图像滤波和逆向视觉问题解法被许多高校教科书、课件和开源视觉代码库(包括 OpenCV)收录,同时也在视觉商业系统中得到广泛应用。现阶段,其实验室在语义分割、自然语言和视觉联合系统、人像深度处理和几何深度理解等领域均取得了重要成果。

【转】贾佳亚港中文团队冠军技术分享:最有效的COCO物体分割算法相关推荐

  1. 腾讯优图贾佳亚:人工智能的多模态发展

    https://www.toutiao.com/i6714210231108239876/ "人工智能的终极应用距离我们到底还有多久?" 贾佳亚的答案是:可能还需要50-100年. ...

  2. 腾讯优图贾佳亚:当AI进入产业应用时代时,计算机视觉技术更应该服务于人才对!...

    作者 | 刘晶晶 出品 | CSDN云计算(ID:CSDNcloud) 从移动支付的自动贩卖机到刷脸支付的智能货柜: 从亲自到柜台验证到人脸核身远程开卡: 从排队买票.排队进门的糟糕旅游体验到提前预约 ...

  3. CVPR2020|比CNN更强有力,港中文贾佳亚团队提出两类新型自注意力网络

    关注极市平台公众号(ID:extrememart),获取计算机视觉前沿资讯/技术干货/招聘面经等 原文链接:比CNN更强有力,港中文贾佳亚团队提出两类新型自注意力网络 Exploring Self-a ...

  4. 腾讯优图一年记:贾佳亚的专访笔记

    腾讯优图一年记:贾佳亚的专访笔记 关于规模 关于服务 业务成熟的原因 我们选择任务时考虑的因素有三点(目标:尽量高效利用资源) 关于技术与需求之间的gap 学术的人才来工业界的优势 学术界与工业界的g ...

  5. 腾讯优图实验室贾佳亚:加入优图第一年 | 专访

    机器之心原创,作者:邱陆陆. 贾佳亚是 2017 年 5 月加入优图实验室,担任总经理一职的.1 年 3 个月之后,他以「可以看到.可以感受到.可以用到」为标准,精选了优图实验室的一众技术,在上海完成 ...

  6. 华科出身,师从贾佳亚,从鹅厂到创业,90后如何登上胡润U30?

    作者 | 八宝粥 出品 | CSDN(id:CSDNnews) 随着AI 技术的发展,国内外涌现出一大批基于AI 落地的工业项目,例如无人车,巡检机器人.仓储智能系统等等.2019年,一家以 AI 视 ...

  7. 离开腾讯首创业,贾佳亚谈人工智能 2.0 革命,技术究竟该如何变革?

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 一周前,原腾讯杰出科学家.优图实验室 X-Lab 负责人贾佳亚离职并创立了一家新的 ...

  8. 尘埃落定!AI 大牛贾佳亚离开腾讯优图,创立思谋科技,投身差异化 AI 创业

    2020-02-28 01:05 导语:祝福!!! 雷锋网AI 科技评论消息,原腾讯杰出科学家.优图实验室X-Lab负责人.香港中文大学计算机科学工程系终身教授贾佳亚近日创立一家新的 AI 公司- 思 ...

  9. SIGIR 2019 eBay高精度召回任务挑战赛冠军团队DeepBlueAI技术分享

    作者丨罗志鹏 单位丨深兰北京AI研发中心 近日,SIGIR 2019 eBay 数据挑战赛结果出炉,这次赛题是 eBay 搜索集团组织的高精度召回任务.由来自深兰科技北京 AI 研发中心的 DeepB ...

最新文章

  1. android编译系统学习 .
  2. 调用Cython时报错: More than one filename match found for utility code Capsule
  3. 2020高速公路shp文件_全国按轴收费方案最终版!今天起,高速公路就按这个标准收费...
  4. 用盛金公式求解一元三次方程
  5. java属于编译_《程序员修炼之道》-读书笔记一-Java到底属于编译型语言还是解释型语言?...
  6. 在windows系统上word转pdf
  7. python3 redis长链接超时_Python3 连接Redis字符串和字节问题探究
  8. py 生产csv文件_数据处理技巧 | glob 被忽略的超强文件批量处理模块
  9. java提供两种处理异常的机制_Java的异常机制分析及处理办法
  10. hdu 1540 Tunnel Warfare (线段树维护左右最长连续区间)
  11. cesium雷达图_Cesium专栏-气象雷达动图(附源码下载)
  12. c4d需要学哪几种语言,自学C4D要多久才能掌握.看下以下的总结
  13. VOT 数据集 groundtruth 8个维度 转成 4个维度的方法
  14. 微信小程序下载图片预览和真机调试均无问题,发布到远程后点击下载没有任何反应
  15. ocpc php,oCPC匹配词很乱怎么办?| SEM问答
  16. java 父类构造_java 父类构造器
  17. 刚挣钱的程序猿同学该怎样花钱?
  18. 51单片机学习:LED闪烁实验
  19. 游承超:手机防爆膜可以降低手机的压力(15P)
  20. 来自北京大学NOIP金牌选手yxc的常用代码模板2,图灵学院和享学课堂

热门文章

  1. 【Docker学习笔记 三】Docker常用容器安装及图形化管理工具
  2. CCS3.3 新建工程遇到的问题
  3. 盒马鲜生app爬虫与 淘系的×- sign 、 x-mini-wua 、 x-sgext…
  4. JS将对象转为字符串
  5. 线性规划求解——增广拉格朗日函数法
  6. 三种求平方根的算法——C/C++
  7. icp相关数学,向量模的平方转换成矩阵相乘
  8. 微软语音识别引擎Speech
  9. MySQL 服务无法打开的解决方法
  10. MATLAB数学建模 回归与内插