郭一璞 假装发自 慕尼黑 
量子位 报道 | 公众号 QbitAI

即将年满7岁的旷视,最近给自己送了一个生日礼物,计算机视觉顶级赛事MS COCO的Detection(并列)、Panoptic、Keypoints和Mapillary Panoptic四个项目的冠军,继去年三冠一亚之后,连续两年成为该赛事上全球表现最佳的公司。

量子位在出结果后采访到了旷视科技参加COCO比赛的团队。

今年COCO很艰难

今年带队的除了旷视科技首席科学家、研究院院长孙剑之外,还有去年的冠军领队、旷视科技研究院Detection组负责人俞刚博士,另外还有十余位同学,大部分是实习生。

从5月中旬启动比赛,到8月结束,旷视COCO小分队从确定团队分工、定方向到逐步优化,历时三个月,蝉联冠军王。

不过,聊到这四个冠军的成就,俞刚博士似乎并没有特别激动,他对今年的比赛有两个字的评价:艰难

团队成员华中科技大学博士在读的余昌黔说,艰难到个别时候晚上十点睡下,两三点又要从床上爬起来,再做一波实验。

不仅艰难,旷视的一个遗憾是算法没有达到内部定下的量化目标。

这场景很熟悉,让人想起学霸同学声称自己考砸了,结果分数出来是年级第一的故事。

去年夺冠后,旷视把目标定得过高了,在实际比赛中并没有预料中那么好。旷视COCO团队实习生、北航研二在读的殷斌一同学对量子位说,在他参加的项目里,团队自己拆分出验证集测试,得分超过80,但实际挑战集却只有76分,让大家不得不费尽功夫,0.1分0.1分的向上提。

至于如此艰难的原因,一方面是COCO“走不动了”,达到了一个饱和状态;二是算法上面还有比较长的路要走,需要更多极致的创新来突破现有的技术水平。

好在虽然艰难,但这并不妨碍他们拿到四个项目的冠军。

自己的数据集

COCO数据集因为数据难度以及标注误差,导致算法越来越饱和了。旷视自己内部开始研究检测任务的后续方向,建立了两个内部数据集。

俞刚博士介绍了旷视的两个和COCO有关的数据集:

第一个是CrowdHuman,包含大量多人重叠照片,专门针对COCO比赛中人人人人人人人人山人海的检测。

这个数据集已经开源,需要的朋友可以取链接:
http://www.crowdhuman.org/

第二个数据集目前还在搜集中,旷视内部的名字叫做COCO++,缘起于COCO的“指鹿为马”现象,因为COCO只有80个标签,难以覆盖世间万物,所以比如当它见到一头鹿的时候,因为没有鹿这个标签,只好标注成马。因此,旷视准备做COCO++这样一个数据集,希望能够覆盖世界上99%的物体,减少出现这类差错的机会。

COCO:中国队对战中国队?

关于COCO的另外一个话题就是:包括旷视、商汤、北邮、滴滴等在内,拿冠军的都是中国队,全无谷歌、Facebook等美国大公司的身影。

这一点俞刚博士觉得与国内的AI发展氛围和创业公司特点分不开。

一方面国内AI热潮正处风口浪尖,发展氛围更好,投入的资源人力足够多,政策也支持,国内研究AI的热情空前高涨,“从人才潜力这个角度讲,中国不会比欧美差,我们需要更好的环境、更好的团队氛围来释放人才潜力,这也是旷视科技研究院一直在做的事。”

另一方面则得益于国内创业公司的资源倾斜。大公司业务广,牵扯多,在COCO比赛这类项目上,单点投入不够集中;而创业公司单点投入更集中,一旦决定参加COCO,团队力往一处使,比赛过程更高效,成绩自然会比大公司要好。

得胜武器:人才培养

COCO这类比赛,最离不开的是人才。

俞刚博士也这么认为,他把旷视今年拿下四个冠军归因于对人才的培养。

一方面,旷视内部一直在培养新人,人才不断档,才能支撑比赛阵容;

另一方面,旷视也一直有足够的技术积累,每天刷arXiv分享优质论文是技术团队内部的必修课,并且需要分析提炼论文中值得学习的内容,而非简单的复制别人开源的成果,让团队整体也有提升。

或者说,COCO比赛对旷视的价值就在于带新人练级

虽然去年的夺冠神器Brain++已经内部应用,但COCO成绩离商业落地还没有那么近。因此,参与COCO的团队也是实习生为主,就像腾讯互娱的校招新人会自己做小游戏一样,比赛对旷视更重要的是人才培养,是旷视人才战略的一部分。

所以,COCO比赛中,他们采取了以老带新的方式来培养团队。经验丰富的研究员指导年轻研究员,传授经验;年轻人也可以在比赛的过程中获得自己的经验体会,提升认识和理解,还可以有新的成果出现。

殷斌一同学对此有深刻的感悟。

在学校的时候,殷斌一苦于学校的计算、数据集等资源限制,渴望更好的平台。

COCO开始前两个月,还是北航研一学生的殷斌一刚刚来到旷视实习,彼时的他,刚刚开始自己在深度学习、计算机视觉领域的学术研究生涯,虽然擅长代码,本科时还拿过ACM区域赛银牌,但对算法一窍不通。

在旷视团队参与COCO的过程中,殷斌一逐渐搞清楚了数据、模型、测试等过程,明白了从头到尾的整体方法逻辑。现在,他已经能够自己独立跑程序、训练模型,完成整一套过程了。

而另一位团队成员余昌黔已经在旷视实习一年多了,开学季这几天,他刚刚在华中科技大学开始自己的博士生涯。

在COCO的workshop中,他不仅见到了敬仰已久的大神Ross Girshick和何恺明,还上台演讲,被主办方称赞比人标的ground-truth结果都好,收获了在场全世界各国参赛者的一片欢呼。

 Ross Girshick 为旷视团队颁奖

研究&落地双管齐下

在旷视内部,研究和落地同步进行着。

落地做实用,比如在手机端运行AI程序,限制在手机的硬件水平之上,模型更小,对用户体验追求更高;

而研究则是探求物理极限,可以尽量用大模型,用大量硬件。

参加比赛是以老带新,用最快速度培养出更多新秀去做产品;

而专做产品的人也要参与研究,把眼界放长远,提升自己的判断能力,培养自己对于技术方向的想法,而不仅仅局限于眼前,才能为自己谋取更高的成长天花板。

这是俞刚博士分享的旷视人才观。

这一点也反映在了COCO团队的组建上。

旷视在组建COCO参赛团队时,先根据新人的兴趣点、爱好特长来分组,如果缺人,再去协调其他团队。之后COCO的成果也会反映在商业落地上,去年的夺冠秘籍Brain++就已经在内部应用了。

能用大量商业资源推动研究,同时研究成果能迅速反哺实际应用,这真是计算机科学家们最好的时代。

实习生:博士,硕士,甚至高中生

旷视的COCO队员余昌黔和殷斌一都是实习生。

殷斌一此前也有在其他科技公司实习的经历,不过并非在研究部门,而是实际商业落地部门,主要工作是写业务代码,没有做研究的机会,“搬砖”的意味更强一些。

而在旷视,能享受充足的研究资源,随时随地请教大牛,在前辈们的push下迅速成长,是他在别处无法获得的巨大收获。

时至今日,已经成为COCO冠军团队成员的他在学校依然行事低调,还没有把这个在校外获得的成就告诉导师和同学。

余昌黔则已经硕士毕业,对科研有着更深一层的认识。他说,旷视科技研究院满足了他对理想研究院的所有期望:团队氛围非常好,周围大牛云集,工作也很自由。

并且旷视研究院这类企业研究院的方向也与读硕士、博士也不冲突:都是为了得到优秀的研究成果、能公开发表,企业研究院还有更好的硬件与数据资源。

前面两位是硕士和博士,但丝毫不过夸张的是,旷视还有过不下十位正在读高中的实习生。

第一位高中实习生的名字叫做范浩强,当时他在人大附中读高三,因为信息学奥赛的优异成绩已经被保送到了清华,而当时他的信息学教练正是旷视科技CTO唐文斌。

欣赏范浩强才华的唐文斌对他发出了邀约:

“我要去开一家公司,叫旷视科技,你要不要来?”

就这样,高中生范浩强成为了旷视的前10号员工之一。清华本科毕业之后,他终于“转正”成了正式员工。

有了一个范浩强,就会有更多高中生,他们以学长带学弟的方式,纷纷来到旷视实习(很遗憾,暂未听说有学妹)。

俞刚博士介绍,来旷视实习的高中生各地都有,他们都不需要高考,或是已经参加竞赛保送了,与其高三无所事事,不如来学点东西;或是准备申请国外的本科,实习中如果有研究成果,也更容易的拿到国外高校的offer。

在旷视呆过的实习生们,转正率非常高。如果继续升学深造,大多数也能去不错的学校,迄今为止已经有三位实习生去了斯坦福。

不过,虽然前面提到的几位实习生都是名校背景,但旷视也并不是只要名校生。

俞刚博士说,主要还是看求职者的闪光点,比如是否擅长代码,学习新知识的能力是否优秀等。有这些亮点,便值得加以培养。

One More Thing

俞刚博士还透露,今年旷视的冠军模型会在迁移到TensorFlow之后开源,预计会是今年年底前后。

加入社群

量子位AI社群28群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

旷视COCO获奖团队亲述:我们是如何两年拿下7个冠军的相关推荐

  1. 多快好省的目标检测器来了,旷视孙剑团队提出Anchor DETR:基于Anchor Point的DETR

    作者丨小马 编辑丨极市平台 本文原创首发于极市平台公众号,转载请获得授权并标明出处. [写在前面] 在本文中,作者提出了一种基于Transformer的目标检测器.在以前基于Transformer的检 ...

  2. 旷视孙剑团队提出AutoML神经架构搜索新方法:单路径One-Shot,更精确更省时

    本文转载自旷视研究院 一步法(One-Shot)是一个强大的神经网络模型搜索(Neural Architecture Search/NAS)框架,但是它的训练相对复杂,并且很难在大型数据集(比如 Im ...

  3. 旷视孙剑团队提出Anchor DETR:基于Transformer的目标检测新网络

    开放了预训练,r50 400多m 写在前面 在本文中,作者提出了一种基于Transformer的目标检测器.在以前基于Transformer的检测器中,目标的查询是一组可学习的embedding.然而 ...

  4. 刚刚,旷视开源深度学习框架「天元」:Brain++内核,研发和落地都在用;孙剑:COCO三连冠背后的秘密武器...

    乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 耗费资源打造优化6年,迭代到8.0版本,旷视技术体系的关键支柱,现在正式对外开源. 刚刚,深度学习驱动之下最早创业的中国AI独角兽旷视,宣 ...

  5. ThunderNet:国防科大、旷视提出首个在ARM上实时运行的通用目标检测算法

    点击我爱计算机视觉标星,更快获取CVML新技术 今天跟大家分享一篇前天新出的论文<ThunderNet: Towards Real-time Generic Object Detection&g ...

  6. 64位系统目录在那里_旷视王珏:前Adobe首席科学家,手握64项专利,曾助力奥斯卡...

    [新智元导读]他,是前Adobe历史上升职最快的首席科学家:他,同时在三大顶会发表过65篇学术论文.手里带过31位博士实习生.获得了64项美国专利; 他,因与孙剑一"面"之缘加入旷 ...

  7. AI Challenger全球AI挑战赛落幕,获奖团队分享200万奖金

    历时130天,全球AI届最大盛事之一,来自65个国家上万名选手参与的首届 "AI Challenger全球AI挑战赛"昨天落下帷幕. 大赛主办方创新工场.搜狗.今日头条在北京举行总 ...

  8. 旷视SLAM组负责人刘骁:三维视觉与机器人

    点击我爱计算机视觉标星,更快获取CVML新技术 大家好,我是旷视研究院SLAM组负责人刘骁,很高兴能和大家分享机器人领域一些有关三维视觉技术的思考. 这次分享的主题集中在SLAM与三维重建两方面,大纲 ...

  9. 高效!Anchor DETR:旷视提出一种基于Transformer的目标检测神器!

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:Sophia知乎 https://zhuanlan.zhihu.com/p/412738375 985人工智能 ...

最新文章

  1. About DotNetNunk
  2. mysql like reverse_mysql 优化like查询
  3. 白盒测试有哪些方法_QA测试开发常考的面试题+答案汇总(持续更新)
  4. [20161107]关于数据文件位图区.txt
  5. 基于指令和混合的前端通用埋点方案
  6. 概念介绍(机器学习)
  7. oracle锁表导致update,delete,insert出现无反应的问题
  8. mysql数据库的备份和恢复的常用方法_MySQL数据库备份与恢复方法(转)
  9. 通过脚本提示是否提交并将表单发向另一页面处理!!
  10. mysql实验步骤_MySQL双方配置实验步骤
  11. 你第1个100万怎么赚的?
  12. TIOBE 2 月编程语言排行榜:Objective-C 的出路在何方?
  13. 【Oracle】 expdp/impdp
  14. MATLAB 如何导入.txt文本
  15. 用keytool生成证书
  16. shell编程之正则表达式与文本处理器
  17. word的表格取消边框后还有虚线怎么办
  18. Kubernetes安装EFK日志收集
  19. 继微博之后,.fans建站成饭圈新宠
  20. calcite连接mysql_如何使用Calcite实现一个简单的数据库

热门文章

  1. 安卓恶意软件Skygofree爆发,连你的照片都能监控到
  2. ensp桥接云ping不通_谁偷了我的云主机文件?五大场景避坑指南
  3. 征服Java面试官!mysql索引树结构
  4. linux下tools.jar,Linux android studio :'tools.jar' seems to be not in Android Studio classpath.
  5. mac虚拟机linux性能测试,Veertu 1.0.4 – Mac上最轻便的虚拟机,可以运行Windows/Linux。...
  6. lua如何判断是否支持cookie_如何判断面部是否需要吸脂
  7. vue3新增Suspense组件
  8. java多线程中 锁 的概念的理解,java 并发多线程显式锁概念简介 什么是显式锁 多线程下篇(一)...
  9. Vue默认插槽、具名插槽、作用域插槽及使用作用域插槽删除列表项
  10. Vue多组件切换,并相互传值(在created和mounted生命周期钩子函数中渲染数据的区别)