李根 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

昨天,量子位报道了中国团队再次称雄AI大赛,把谷歌微软和FB甩在身后的消息。

简而言之,在计算机视觉顶会ICCV 2017期间,中国团队在物体检测、人体关键点检测等竞争激烈的比赛中击败了谷歌、微软、Facebook等国际巨头AI实验室,7项竞赛囊获了5项第一。

其中,中国AI创业公司旷视科技(Face++)在MS COCO物体检测、人体关键点检测,以及Places物体分割等三项核心竞赛中拿下第一名。

在旷视前方团队归国之际,我们和其团队代表进行了一次远程连线,旷视研究院Lead Researcher姜宇宁和实习生肖特特,向量子位谈到了更多更直接的参赛感受。

领队姜宇宁

量子位:谈谈这次你们主要的算法框架使用情况吧?

姜宇宁:这次我们的主要使用的是“MegDT”(Megvii Detection)系统,这套算法是基于FPN类似的框架,然后加了很多我们的改进。

具体的贡献,比如我们是学术界第一个用非常大的batch size训练物体检测的团队,之前工作中用的batch size,比如何恺明的Mask R-CNN,Facebook的FPN,最高是16,而我们做到了250多。

量子位:为这次COCO比赛准备了多久?

姜宇宁:具体冲刺时间是2个月,不过真正的准备是从春节假期之后就开始的,前前后后有半年左右的时间,进步也很快,比如我们3月份的水平是35、35,但最后比赛的成绩达到了52,这半年内提升还是很大的。

量子位:主要围绕哪些方面进行了提升?

姜宇宁:除了batch size,还用多监督信号和各种各样上下文信息方面的提升。关于此次比赛所用的方法、技术,我们也会以论文的形式发表,应该在CVPR上就会有揭晓。

量子位:也有评论说你们这次胜利是拼硬件、堆硬件的结果,你怎么看?

姜宇宁:我打个可能不太恰当的比方。二战中美国和日本比拼,真正实力和最后比拼的就是工业生产能力的高低,结果反映的也是工业生产能力、综合实力的高下。

当然,比赛成绩对于我们而言,只是一个结果。就像我们在最后演讲时候说的那样:这次参赛让我们在快速迭代能力方面感触很深,不仅是如何拥有大规模计算力,而且更关键的是有能力把这些计算力充分用起来。

我认为不管是研究,还是初创公司发展,都要构建起这样的能力,可以把资源快速使用起来,形成更高效的创新。

所以拼硬件也好、堆机器也好,并不是一个所谓花钱就能解决的事情,而是有能力把这么多机器用起来、用好。

量子位:除了参赛选手的因素,这次你们三项第一的关键是什么?

姜宇宁:MegBrian和Brain++是我们此次取胜的关键要素,其中MegBrain是我们内部研发的一套深度学习框架,等同于Google的TensorFlow、Caffe2,不过研发的时间比他们要早半年。我们现在内部所有的研发,都是基于这套工具去做的。

量子位:这次比赛大家比拼的算法,都有公开的论文,你认为什么原因导致了最后结果上的差异?

姜宇宁:我觉得核心还是在于“变招”和“内功”,我是武侠迷,用武侠举个例子吧。

首先,降龙十八掌,丐帮历代帮主可能都会,但为什么萧峰打得更好?就是因为他在原来的基础上,创造了不少后招、变手。我想我们也是这样,根据公开的论文,进一步在应用中优化、改变,进行了大量的改变,导致实现不一样。

其次,哪怕是一模一样的算法,最后实现也不一样,这就是MegBrian和平台Brian++的能力,招式都一样,但内功不同,哪怕一模一样的算法,平台对多机多卡的支持更好,我们就能做出不一样的效果。

量子位:具体在这次比赛中,你们的“内功”是如何体现的?

姜宇宁:比如我们做了一个大的batch size,做了一个多机多卡,可以同时支持在32台机器上同时做训练,这是内功体现之一。

可能还需要再次强调下,这次比赛虽然我们几个选手站在一线,但没有背后的团队,肯定不可能达成目标。

我们只是最后被关注到的那几个进球的前锋,但这支“足球队”中的中场、后卫和守门员,都非常重要,缺一不可。

比如MegBrian的同事,对我们的支持也非常大,在我们比赛前,Megbrian团队告诉我们,他们完美实现了在一张卡上放更多的图,这让我们节省了近40%的内存,这才允许我们可以把batch size做这么大。一次训练,我可以放的图更多。

所以这样的能力,即便我们不参加COCO比赛,也能应用到其他地方——COCO只是检验我们内功修炼如何的一次实战比赛。

量子位:总体上你会怎么评价这次COCO比赛?

姜宇宁:三方面吧。首先,通过这次比赛,锻炼了队伍、检验了这套内功究竟修炼得如何,还有参赛同学的现场实战能力等,总体还是很欣慰的;其次,检验了MegBrian和Brain++的稳定性;第三,接下来可能要把检测做得更快更好,应用到更多产品吧。

量子位:COCO比赛的模型可以直接应用到产品中吗?

姜宇宁:还不行。

但通过这个比赛,我们得到了一些经验性的东西,比如什么东西是有用的,什么是没用的。这样的经验可以传送给离产品更近的部门。

另外,说到检测,可以看看Face++现在做的两个事情,一个是在移动端,做模型的小型化,我们的ShuffleNet超越了Google的MobilNets;另一个事情是Face++在做的MegEye-C3S智能人脸抓拍机,软硬件结合,人脸检测算法可以在FPGA这样的条件下跑起来,而且成本更低。

量子位:这次中国军团也是大放异彩,你们感受如何?

姜宇宁:中国参赛队伍的表现都很好,都在各项比赛中站在了前列。我认为这是好事,AI往前发展,聪明的人进来得越多,对整个行业就越有利、越有意义。

大三实习生肖特特

量子位:你这次以大三实习生身份参赛受到关注,你在旷视实习多久了?

肖特特:我到旷视实习马上满2年,2015年开始,那时候刚入大学不久,之前有一些编程方面的经验。

然后我的老师针对编程经验的同学专门设立了一个班级,有一些前沿知识的拓展,提供一些案例,其中就有Face++,当时我也好奇,这些理论知识,是怎么被在现实中应用的,所以找到了Face++进一步了解,当时参观和面试的感觉是:前沿、有趣和有价值,最后留了下来,开始实习。

量子位:目前为止最深的印象是什么?

肖特特:很多同学很聪明,都有很强的动手能力,他们想很多的问题都很透彻。

另外,干活靠谱,也是非常重要的因素,任务下来后全力以赴,不达成目标不罢休,所以结果都是相当好的,又快又好。

最后是对技术的追求,我们是一家以技术驱动做产品的公司。大家在一起很兴奋、快乐。

量子位:未来有什么规划吗?

肖特特:未来会去北美念博士。原本不想念博士,但最近两年的经历,让我觉得应该在某个方向上专研够深,而且已经在工业界待过,也有一些经验和启发,或许能够帮助我的科研方向上的突破。

最后就是可以好好思考下很多问题,不止学术问题,也包括对生活、人生理想的思考,如果是念博士,可能会比较时机恰当。

当然,因为旷视在北美也设立了研究院,所以未来也可能继续在旷视,即便这些都是未知数。

量子位:学业、实习、ACM,怎么平衡时间?

肖特特:我爱好比较多,什么都会接触一下,但主要是:1)找到生活中的平衡,找到优先级,ACM中我的队友也是我的室友,大家平常生活就会讨论,不会占用太多时间;2)大一大二以课业为主,其后就开始有针对性选择感兴趣、更进一步深入的事情,然后在公司加强自己的动手能力。

加入社群

量子位AI社群10群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot4入群;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot4,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态

连线Face++前方团队:COCO夺冠背后的细节,不是拼硬件这么简单相关推荐

  1. 智能实验室服务器,阿里巴巴机器智能实验室线下智能团队三年工作总结

    不同业务往往使用的深度学习库多种多样,例如 Caffe, Tensorflow, Mxnet 等等: 不同业务使用的基础技术差异比较大,有分类识别.检测.分割.语音等等: 不同业务的数据安全级别差异比 ...

  2. 云云网的谷歌系团队套现走人背后,可能是理想落地的痛苦转型

    云云网的谷歌系团队套现走人背后,可能是理想落地的痛苦转型 云云网的谷歌系团队套现走人背后,可能是理想落地的痛苦转型-看点-@虎嗅网 云云网的谷歌系团队套现走人背后,可能是理想落地的痛苦转型 作者 虎嗅 ...

  3. 刚刚,旷视开源深度学习框架「天元」:Brain++内核,研发和落地都在用;孙剑:COCO三连冠背后的秘密武器...

    乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 耗费资源打造优化6年,迭代到8.0版本,旷视技术体系的关键支柱,现在正式对外开源. 刚刚,深度学习驱动之下最早创业的中国AI独角兽旷视,宣 ...

  4. 【智能零售】数据如何驱动新零售:线上单月 1.2 亿背后的数据化运营

    作者简介: 付凌峰,2017 年加入百果园,现数据中心 AI 负责人.此前就职于沃尔玛.卜蜂莲花等大型外资连锁企业,在数据分析.建模与应用实践方面有丰富经验.2010 年起在沃尔玛(中国)总部工作 6 ...

  5. 线下活动 | 揭秘大数据背后的京东虚拟平台(免费报名中)

     ▍仅需两步: 1.在社区认真提一个问题. 发布问题请补充详细的背景/条件信息,字数不少于60字,否则无法通过审核喔.点击立即认真提问 2.添加小助手的微信(pmcaffzs2),并发送你的问题截图. ...

  6. 百果园付凌峰:线上单月 1.2 亿背后的数据化运营

    作者简介: 付凌峰,2017 年加入百果园,现数据中心 AI 负责人.此前就职于沃尔玛.卜蜂莲花等大型外资连锁企业,在数据分析.建模与应用实践方面有丰富经验.2010 年起在沃尔玛(中国)总部工作 6 ...

  7. 4K修复版《海上钢琴师》登陆全国院线,一文读懂背后的黑科技!

    最近有件大事,11 月 15 日,全球瞩目的经典电影<海上钢琴师>4K 修复版登陆了全国院线.岁月侵蚀的影片经典场景,在老胶片的保存下只剩模糊的影像.而此次经 4K 技术修复的版本,据说采 ...

  8. 中国团队首次夺冠FPS游戏AI竞赛VizDoom,清华腾讯AI联手

    允中 发自 凹非寺  量子位 报道 | 公众号 QbitAI 中国AI又有新突破. 在荷兰刚刚结束的 IEEE CIG 计算智能与游戏大会上,清华大学张钹院士领导的人工智能创新团队 TSAIL 在第一 ...

  9. S8夺冠背后:还差一只怪就升级的开发商

    缺好游戏的电竞强国 "3:0!我们是冠军!胜利属于LPL!" 11月3日,韩国仁川,电竞游戏<英雄联盟>第8赛季全球总决赛,职业俱乐部Invictus Gaming(以 ...

最新文章

  1. ASP.NET中App_Code,App_Data等文件夹的作用
  2. sql中set命令解析
  3. 干货 | 国内互联网公司是如何做微服务实践的?(附PPT下载)
  4. Win 系统 PyTorch 安装配置教程
  5. ansible企业级自动化运维工具
  6. java输出一个Int数据的补码
  7. 台式计算机 启天 m4600,联想启天M4600-N000:高效的焕新之选——台式机
  8. 关于ResultSet can not re-read row data for column 1 解决方法
  9. 前端学习(1418):服务器响应的数据格式
  10. 编译mediastreamer2/ffmpeg/linphone(x86平台)
  11. linux 常用参数,Linux 常用命令及参数整理
  12. 【英语学习】【Level 08】U05 Better option L5 A picture is worth a thousand words
  13. Python中的枚举类型及其用法
  14. ABBYY PDF Transformer+功能概述
  15. java设计模式----代理模式
  16. MacOS iNode客户端连接SSL
  17. Linux ext2, ext3, ext4 文件系统解读[4]
  18. Linux下MinDoc安装使用
  19. 最全常用Linux命令升级及面试必备
  20. 基于SmartQQ协议的QQ自动回复机器人-1

热门文章

  1. Node中POST请求的正确处理方式
  2. 杭州intel服务器维护,服务器应该怎么去维护?
  3. php定时备份mysql,Windows服务器中PHP+MySQL设置定时备份
  4. html5液体效果,HTML5/CSS3/SVG实现的液体掉落(滑落)动画
  5. 乐视android版本怎么升级,乐视网android手机客户端升级推出V2.0版
  6. Linux引出环境变量的关键字,学习记录008-linux常用命令/设置系统and用户环境变量two(示例代码)...
  7. 美国服务器远程卡,RAKsmart Windows美国服务器远程连接VNC方法
  8. java xml 单标签,如何修改java中的xml标签特定值?
  9. java 我爱你_Java初级教程-课程笔记
  10. 用计算机实现工业自动化,计算机技术在工业自动化控制系统中的应用