超越Mask-RCNN:谷歌大脑的AI,自己写了个目标检测AI
方栗子 发自 凹非寺
量子位 出品 | 公众号 QbitAI
这是一只AI生出的小AI。
谷歌大脑的Quoc Le团队,用神经网络架构搜索 (NAS) ,发现了一个目标检测模型。长这样:
△ 看不清请把手机横过来
它的准确率和速度都超过了大前辈Mask-RCNN;也超过了另外两只行业精英:FPN和SSD。
模型叫做NAS-FPN。大佬Quoc Le说,它的长相完全在想象之外,十分前卫:
△ 喜讯发布一日,已收获600颗心
AI的脑洞果然和人类不一样。对比一下,目标检测界的传统方法FPN (特征金字塔网络) 长这样:
谷歌大脑说,虽然网络架构搜索 (NAS) 并不算新颖,但他们用的搜索空间与众不同。
怎么搜出来?
在NAS-FPN出现之前,地球上最强大的目标检测模型,架构都是人类手动设计的。
△ 这是Mask-RCNN的成果
NAS是一种自动调参的方法,调的不是训练超参数,是网络架构超参数:比如网络多少层、每层都是什么算子、卷积层里的过滤器大小等等。
它可以在许多许多不同的架构里,快速找到性能最好的那一个。
所以,要把目标检测的常用架构FPN (特征金字塔网络) 和NAS结合起来,发现那只最厉害的AI。
但问题是搜索空间太大,特征横跨许多不同的尺度。
于是,团队基于RetinaNet框架,设计了一个新的搜索空间:
这里,一个FPN是由许多的“合并单元 (Merging Cells) ”组成的。
是要把输入的不同尺度/分辨率的特征层,合并到RetinaNet的表征里去。
具体怎样合并?这是由一个RNN控制器来决定的,经过四个步骤:
一是,从输入里任选一个特征层;
二是,从输入里再选一个特征层;
三是,选择输出的特征分辨率;
四是,选择一种二进制运算,把两个特征层 (用上一步选定的分辨率) 合并起来。
第四步有两种运算可选,一种是加和 (sum) ,一种是全局池化 (Global Pooling) 。两个都是简单、高效的运算,不会附加任何带训练的参数。
一个Cell就这样合并出来了,但这只是中间结果。把它加到刚才的输入列表里,和其他特征层排在一起。
然后,就可以重新选两个特征层,重复上面的步骤一、二、四,保持分辨率不变。
(团队说,如果要避免选到相同分辨率的两个特征层,就不要用步长8。2和4是比较合适的步长。)
就这样,不停地生成新的Cell。
停止搜索的时候,最后生成的5个Cell,会组成“被选中的FPN”出道。
那么问题来了,搜索什么时候能停?
不是非要全部搜索完,随时都可以退出。反正分辨率是不变的,FPN是可以随意扩展的。
团队设定了Early Exit (提前退出) 机制,用来权衡速度和准确率。
最终发布NAS-FPN的,是AI跑了8,000步之后,选取最末5个Cell生成的网络。回顾一下:
△ 看不清请把手机横过来
从原始FPN (下图a) 开始,它走过的路大概是这样的:
跑得越久,生成的网络就越蜿蜒。
模型怎么样?
NAS-FPN可以依托于各种骨架:MobileNet,ResNet,AmoebaNet……
团队选择的是AmoebaNet骨架。
那么,用COCO test-dev数据集,和那些强大的前辈比一比高清大图检测效果。
比赛结果发布:
△ 看不清请把手机横过来
NAS-FPN拿到了48.3的AP分,超过了Mask-RCNN,并且用时更短 (右边第二列是时间) 。
另外一场比赛,是移动检测 (320x320) ,NAS-FPN的轻量版本,跑在MobileNet2骨架上:
超过了厉害的前辈SSD轻量版,虽然,还是没有赶上YOLOv3。
△ YOLOv3过往成果展
不过,打败Mask-RCNN已经是值得庆祝的成就了。
One More Thing
NAS既然如此高能,应该已经搜索过很多东西了吧?
谷歌大脑的另一位成员David Ha列出了7种:
1) 基于CNN的图像分类器,2) RNN,3) 激活函数,4) SGD优化器,5) 数据扩增,6) Transformer,7) 目标检测。
并发射了直击灵魂的提问:下一个被搜的会是什么?
他的同事摘得了最佳答案:NAS啊。
△ NAS
论文传送门:
https://arxiv.org/pdf/1904.07392.pdf
作者系网易新闻·网易号“各有态度”签约作者
— 完 —
活动报名|多模态视频人物识别
加入社群
量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI+行业群、AI技术群;
欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「好看」吧 !
超越Mask-RCNN:谷歌大脑的AI,自己写了个目标检测AI相关推荐
- Keras之Mask R-CNN:《极限挑战》第四季第2期助力高考—使用Mask R-CNN代替Photoshop抠图、颜色填充框出目标检测/图像分割/语义分割
Keras之Mask R-CNN:<极限挑战>第四季第2期助力高考-使用Mask R-CNN代替Photoshop抠图.颜色填充框出目标检测/图像分割/语义分割 导读 没有伞的孩子只能努力 ...
- 超越BN-ReLU!谷歌大脑等提出EvoNorms:归一化激活层的进化
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转载自:机器之心 | 作者:Hanxiao Liu等 最近,谷 ...
- Cascade R-CNN升级!目标检测制霸COCO,实例分割超越Mask R-CNN
点击我爱计算机视觉标星,更快获取CVML新技术 前天,arxiv上新出一篇论文<Cascade R-CNN: High Quality Object Detection and Instance ...
- 谷歌大脑新优化器VeLO火了!让AI自己调整超参数,自适应不同任务,83个任务训练加速比经典Adam更快!...
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 萧箫 发自 凹非寺 转载自:量子位(QbitAI) 还在苦恼怎么给 ...
- 超越CLIP!谷歌大脑多模态学习新作CLIPPO:仅从像素理解图像和语言
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->CV微信技术交流群 转载自:机器之心 | 编辑:袁铭怿 CLIPPO 是一种统一的模型,用 ...
- reading : Mask R-CNN(Kaiming He Georgia Gkioxari Piotr Dolla ́r Ross Girshick Facebook AI Research)
abstract method : Mask R-CNN 在R-CNN中加入一个分支预测object mask(目标掩模) 类似于加了一个分支做bounding box recognition. a ...
- 超越YOLOv5,1.3M超轻量,高效易用,目标检测领域这一个就够了!
允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI 目标检测技术作为视觉技术届的顶梁柱,不仅单兵作战在人脸.车辆.商品.缺陷检测等场景有出色的表现,也是文本识别,图像检索.视频分析.目标跟踪等 ...
- AI算法创新赛-人车目标检测竞赛总结04
队伍:AI000038 小组成员:杨志强,林松 1. 算法介绍 1.1 相关工作 当前流行的目标检测算法主要分为三种,一阶段算法:SSD,FCOS,Scaled,YOLO系列等:二阶段算法:Faste ...
- 超越YOLOv5,1.3M超轻量,高效易用,目标检测领域这一个就够了
简 介: 目标检测技术作为视觉技术届的顶梁柱,不仅单兵作战在人脸.车辆.商品.缺陷检测等场景有出色的表现,也是文本识别,图像检索.视频分析.目标跟踪等复合技术的核心模块,应用场景可谓比比皆是.各界开发 ...
最新文章
- Realm及相关对象——《跟我学Shiro》
- Page.LoadTemplate的使用
- 如果用户访问一个不存在的地址呢?
- 天天算法 LeetCode-938-二叉搜索树的范围和
- 机器学习中的不平衡分类方法(part6)--支持向量机
- Spring原理之代理与动态代理模式总结(四)
- Spring集成基础知识
- linux openjdk_OpenJDK作为Linux上的默认Java
- java学习(18):巩固练习
- 因为瘟疫,英国诞生了一个又一个的科学家
- 不适合学计算机的理由,哪些人不适合学计算机 原因是什么
- 【Java】使用springboot运行程序时出现的错误
- MySQL主从同步(五)——排错思路
- 第【一】部分Netzob项目工具的安装配置
- 终于!这个速算题自动批改程序被我给做出来了!
- Altium Designer——PCB多层板中内电层分割基本原则
- JAVA-判断三阶矩阵是否满秩
- RC电路的充放过程C语言实现,RC电路的瞬态和稳态过程
- 失落世界服务器国庆宝箱位置,失落的斯菲尔 图文攻略 全剧情任务流程全宝箱收集...
- 云南农业大学matlab,云南农业大学关于公第七届学生科技.doc
热门文章
- 让 AI 教机器自己玩俄罗斯方块
- 智能音箱扎堆的技术红海,Rokid 如何杀出一条血路?
- 北上广深杭程序员买房姿势图鉴
- 知乎:“我们不主动收集数据”;滴滴被打乘客怂了;三星太子归位 | CSDN极客头条...
- 编程语言 Ruby 如何还能再活 25 年?
- 滴滴怒怼美团;阿里麻吉宝刷屏;B站、爱奇艺上市 | CSDN 极客头条
- Visual Studio 2017 15.5 正式发布,性能再提升
- ======第一章操作系统引论======
- 数据结构与算法之循环队列的操作
- 计算机安全最基础知识,计算机的分类(信息安全基础知识)