方栗子 发自 凹非寺
量子位 出品 | 公众号 QbitAI

这是一只AI生出的小AI。

谷歌大脑的Quoc Le团队,用神经网络架构搜索 (NAS) ,发现了一个目标检测模型。长这样:

 看不清请把手机横过来

它的准确率速度都超过了大前辈Mask-RCNN;也超过了另外两只行业精英:FPN和SSD。

模型叫做NAS-FPN。大佬Quoc Le说,它的长相完全在想象之外,十分前卫:

 喜讯发布一日,已收获600颗心

AI的脑洞果然和人类不一样。对比一下,目标检测界的传统方法FPN (特征金字塔网络) 长这样:

谷歌大脑说,虽然网络架构搜索 (NAS) 并不算新颖,但他们用的搜索空间与众不同。

怎么搜出来?

在NAS-FPN出现之前,地球上最强大的目标检测模型,架构都是人类手动设计的。

 这是Mask-RCNN的成果

NAS是一种自动调参的方法,调的不是训练超参数,是网络架构超参数:比如网络多少层、每层都是什么算子、卷积层里的过滤器大小等等。

它可以在许多许多不同的架构里,快速找到性能最好的那一个。

所以,要把目标检测的常用架构FPN (特征金字塔网络) 和NAS结合起来,发现那只最厉害的AI。

但问题是搜索空间太大,特征横跨许多不同的尺度。

于是,团队基于RetinaNet框架,设计了一个新的搜索空间:

这里,一个FPN是由许多的“合并单元 (Merging Cells) ”组成的。

是要把输入的不同尺度/分辨率的特征层,合并到RetinaNet的表征里去。

具体怎样合并?这是由一个RNN控制器来决定的,经过四个步骤:

一是,从输入里任选一个特征层;

二是,从输入里再选一个特征层;

三是,选择输出的特征分辨率;

四是,选择一种二进制运算,把两个特征层 (用上一步选定的分辨率) 合并起来。

第四步有两种运算可选,一种是加和 (sum) ,一种是全局池化 (Global Pooling) 。两个都是简单、高效的运算,不会附加任何带训练的参数。

一个Cell就这样合并出来了,但这只是中间结果。把它加到刚才的输入列表里,和其他特征层排在一起。

然后,就可以重新选两个特征层,重复上面的步骤一、二、四,保持分辨率不变。

(团队说,如果要避免选到相同分辨率的两个特征层,就不要用步长8。2和4是比较合适的步长。)

就这样,不停地生成新的Cell。

停止搜索的时候,最后生成的5个Cell,会组成“被选中的FPN”出道

那么问题来了,搜索什么时候能停?

不是非要全部搜索完,随时都可以退出。反正分辨率是不变的,FPN是可以随意扩展的。

团队设定了Early Exit (提前退出) 机制,用来权衡速度和准确率。

最终发布NAS-FPN的,是AI跑了8,000步之后,选取最末5个Cell生成的网络。回顾一下:

 看不清请把手机横过来

从原始FPN (下图a) 开始,它走过的路大概是这样的:

跑得越久,生成的网络就越蜿蜒。

模型怎么样?

NAS-FPN可以依托于各种骨架:MobileNet,ResNet,AmoebaNet……

团队选择的是AmoebaNet骨架。

那么,用COCO test-dev数据集,和那些强大的前辈比一比高清大图检测效果。

比赛结果发布:

 看不清请把手机横过来

NAS-FPN拿到了48.3的AP分,超过了Mask-RCNN,并且用时更短 (右边第二列是时间) 。

另外一场比赛,是移动检测 (320x320) ,NAS-FPN的轻量版本,跑在MobileNet2骨架上:

超过了厉害的前辈SSD轻量版,虽然,还是没有赶上YOLOv3

 YOLOv3过往成果展

不过,打败Mask-RCNN已经是值得庆祝的成就了。

One More Thing

NAS既然如此高能,应该已经搜索过很多东西了吧?

谷歌大脑的另一位成员David Ha列出了7种

1) 基于CNN的图像分类器,2) RNN,3) 激活函数,4) SGD优化器,5) 数据扩增,6) Transformer,7) 目标检测。

并发射了直击灵魂的提问:下一个被搜的会是什么?

他的同事摘得了最佳答案:NAS啊

 NAS

论文传送门:
https://arxiv.org/pdf/1904.07392.pdf

作者系网易新闻·网易号“各有态度”签约作者

活动报名|多模态视频人物识别

加入社群

量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI+行业群、AI技术群;

欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

超越Mask-RCNN:谷歌大脑的AI,自己写了个目标检测AI相关推荐

  1. Keras之Mask R-CNN:《极限挑战》第四季第2期助力高考—使用Mask R-CNN代替Photoshop抠图、颜色填充框出目标检测/图像分割/语义分割

    Keras之Mask R-CNN:<极限挑战>第四季第2期助力高考-使用Mask R-CNN代替Photoshop抠图.颜色填充框出目标检测/图像分割/语义分割 导读 没有伞的孩子只能努力 ...

  2. 超越BN-ReLU!谷歌大脑等提出EvoNorms:归一化激活层的进化

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转载自:机器之心  | 作者:Hanxiao Liu等 最近,谷 ...

  3. Cascade R-CNN升级!目标检测制霸COCO,实例分割超越Mask R-CNN

    点击我爱计算机视觉标星,更快获取CVML新技术 前天,arxiv上新出一篇论文<Cascade R-CNN: High Quality Object Detection and Instance ...

  4. 谷歌大脑新优化器VeLO火了!让AI自己调整超参数,自适应不同任务,83个任务训练加速比经典Adam更快!...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 萧箫 发自 凹非寺 转载自:量子位(QbitAI) 还在苦恼怎么给 ...

  5. 超越CLIP!谷歌大脑多模态学习新作CLIPPO:仅从像素理解图像和语言

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->CV微信技术交流群 转载自:机器之心 | 编辑:袁铭怿 CLIPPO 是一种统一的模型,用 ...

  6. reading : Mask R-CNN(Kaiming He Georgia Gkioxari Piotr Dolla ́r Ross Girshick Facebook AI Research)

    abstract method : Mask R-CNN 在R-CNN中加入一个分支预测object mask(目标掩模) 类似于加了一个分支做bounding box recognition. a ...

  7. 超越YOLOv5,1.3M超轻量,高效易用,目标检测领域这一个就够了!

    允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI 目标检测技术作为视觉技术届的顶梁柱,不仅单兵作战在人脸.车辆.商品.缺陷检测等场景有出色的表现,也是文本识别,图像检索.视频分析.目标跟踪等 ...

  8. AI算法创新赛-人车目标检测竞赛总结04

    队伍:AI000038 小组成员:杨志强,林松 1. 算法介绍 1.1 相关工作 当前流行的目标检测算法主要分为三种,一阶段算法:SSD,FCOS,Scaled,YOLO系列等:二阶段算法:Faste ...

  9. 超越YOLOv5,1.3M超轻量,高效易用,目标检测领域这一个就够了

    简 介: 目标检测技术作为视觉技术届的顶梁柱,不仅单兵作战在人脸.车辆.商品.缺陷检测等场景有出色的表现,也是文本识别,图像检索.视频分析.目标跟踪等复合技术的核心模块,应用场景可谓比比皆是.各界开发 ...

最新文章

  1. Realm及相关对象——《跟我学Shiro》
  2. Page.LoadTemplate的使用
  3. 如果用户访问一个不存在的地址呢?
  4. 天天算法 LeetCode-938-二叉搜索树的范围和
  5. 机器学习中的不平衡分类方法(part6)--支持向量机
  6. Spring原理之代理与动态代理模式总结(四)
  7. Spring集成基础知识
  8. linux openjdk_OpenJDK作为Linux上的默认Java
  9. java学习(18):巩固练习
  10. 因为瘟疫,英国诞生了一个又一个的科学家
  11. 不适合学计算机的理由,哪些人不适合学计算机 原因是什么
  12. 【Java】使用springboot运行程序时出现的错误
  13. MySQL主从同步(五)——排错思路
  14. 第【一】部分Netzob项目工具的安装配置
  15. 终于!这个速算题自动批改程序被我给做出来了!
  16. Altium Designer——PCB多层板中内电层分割基本原则
  17. JAVA-判断三阶矩阵是否满秩
  18. RC电路的充放过程C语言实现,RC电路的瞬态和稳态过程
  19. 失落世界服务器国庆宝箱位置,失落的斯菲尔 图文攻略 全剧情任务流程全宝箱收集...
  20. 云南农业大学matlab,云南农业大学关于公第七届学生科技.doc

热门文章

  1. 让 AI 教机器自己玩俄罗斯方块
  2. 智能音箱扎堆的技术红海,Rokid 如何杀出一条血路?
  3. 北上广深杭程序员买房姿势图鉴
  4. 知乎:“我们不主动收集数据”;滴滴被打乘客怂了;三星太子归位 | CSDN极客头条...
  5. 编程语言 Ruby 如何还能再活 25 年?
  6. 滴滴怒怼美团;阿里麻吉宝刷屏;B站、爱奇艺上市 | CSDN 极客头条
  7. Visual Studio 2017 15.5 正式发布,性能再提升
  8. ======第一章操作系统引论======
  9. 数据结构与算法之循环队列的操作
  10. 计算机安全最基础知识,计算机的分类(信息安全基础知识)