谷歌开放的TensorFlow Object Detection API 效果如何？对业界有什么影响

？谷歌开放了一个 Object Detection API: Supercharge your C

写个简单的科普帖吧。

熟悉TensorFlow的人都知道，tf在Github上的主页是：tensorflow，然后这个主页下又有两个比较重要的repo（看star数就知道了），分别是TensorFlow的源代码repo：tensorflow/tensorflow，还有一个tensorflow/models。后者tensorflow/models是Google官方用TensorFlow做的各种各样的模型，相当于示例代码，比如用于图像分类的Slim，深度文字OCR，以及用于NLP任务的句法分析模型syntaxnet，Seq2Seq with Attention等等等等。这次公布的Object Detection API同样是放在了tensorflow/models里。

再来说下这次公布的代码的实现方式。首先，对于目标检测这个任务来说，前面必须有一个像样的ImageNet图像分类模型来充当所谓的特征提取（Feature Extraction）层，比如VGG16、ResNet等网络结构。TensorFlow官方实现这些网络结构的项目是TensorFlow Slim，而这次公布的Object Detection API正是基于Slim的。Slim这个库公布的时间较早，不仅收录了AlexNet、VGG16、VGG19、Inception、ResNet这些比较经典的耳熟能详的卷积网络模型，还有Google自己搞的Inception-Resnet，MobileNet等。

我们在TensorFlow Object Detection API的官方安装指南（地址：tensorflow/models）中，可以看到这样一句代码：

# From tensorflow/models/
export PYTHONPATH=$PYTHONPATH:`pwd`:`pwd`/slim

很显然，这就是钦点用Slim作特征抽取了。

另外，以Faster RCNN为例，之前在github上，可以找到各种各样非官方的TensorFlow实现，但是这些实现使用的特征抽取层都不是Slim，而是五花八门的什么都有，另外一方面实现代码大量copy自原始的caffe的实现：rbgirshick/py-faster-rcnn，这次公布的代码里已经一点也找不到原始caffe实现的痕迹了。最后，原来非官方的Object Detection实现的质量参差不齐，去年我调过一个Faster RCNN，过程比较痛苦，在运行之前疯狂debug了三天才勉强跑了起来。这次Google官方公布的Object Detection API别的不说，代码质量肯定是过的去的，因此以后应该不会有人再造TensorFlow下Faster RCNN、R-FCN、SSD的轮子了。

说完了代码，再简单来说下公布的模型。主要公布了5个在COCO上训练的网络。网络结构分别是SSD+MobileNet、SSD+Inception、R-FCN+ResNet101、Faster RCNN+ResNet101、Faster RCNN+Inception_ResNet。后期应该还会有更多的模型加入进来。

&lt;img src="https://pic1.zhimg.com/50/v2-03c7cfac6d70b2dd476c8e4868179de4_hd.jpg" data-rawwidth="654" data-rawheight="255" class="origin_image zh-lightbox-thumb" width="654" data-original="https://pic1.zhimg.com/v2-03c7cfac6d70b2dd476c8e4868179de4_r.jpg"&gt;

--------------------------------------分割线----------------------------------

最后，给新手朋友提供一个可以跑出官方Demo效果的小教程，非常简单，用5分钟的时间就可以跑一遍感受一下，只要安装了TensorFlow就可以，有没有GPU都无所谓。

1. 安装或升级protoc

首先需要安装或升级protoc，不然在后面会无法编译。

安装/升级的方法是去protobuf的Release界面：google/protobuf，下载对应的已经编译好的protoc。

&lt;img src="https://pic4.zhimg.com/50/v2-11cc4533c8cdb6981e11d1f36c2980af_hd.jpg" data-rawwidth="783" data-rawheight="308" class="origin_image zh-lightbox-thumb" width="783" data-original="https://pic4.zhimg.com/v2-11cc4533c8cdb6981e11d1f36c2980af_r.jpg"&gt;

比如我是64位的ubuntu，那么就下载protoc-3.3.0-linux-x86_64.zip。下载解压后会有一个protoc二进制文件，覆盖到对应目录即可（如果不放心的可以用cp /usr/bin/protoc ~/protoc_bak先备份一下）：

sudo cp bin/protoc /usr/bin/protoc

2. 下载代码并编译

下载tensorflow/models的代码：

git clone https://github.com/tensorflow/models.git

进入到models文件夹，编译Object Detection API的代码：

# From tensorflow/models/
protoc object_detection/protos/*.proto --python_out=.

3. 运行notebook demo

在models文件夹下运行：

jupyter-notebook

访问文件夹object_detection，运行object_detection_tutorial.ipynb：

&lt;img src="https://pic4.zhimg.com/50/v2-4e0894c3b243444a8d6093c824f50117_hd.jpg" data-rawwidth="1173" data-rawheight="430" class="origin_image zh-lightbox-thumb" width="1173" data-original="https://pic4.zhimg.com/v2-4e0894c3b243444a8d6093c824f50117_r.jpg"&gt;

依次shift+enter运行到底就行了。这个Demo会自动下载并执行最小最快的模型ssd+mobilenet。

最后的检测效果，一张是汪星人图片：

&lt;img src="https://pic4.zhimg.com/50/v2-fb93281f394dcb443ab41dafc70967a7_hd.png" data-rawwidth="785" data-rawheight="497" class="origin_image zh-lightbox-thumb" width="785" data-original="https://pic4.zhimg.com/v2-fb93281f394dcb443ab41dafc70967a7_r.png"&gt;

还有一张是海滩图片：

&lt;img src="https://pic3.zhimg.com/50/v2-1a46d658233bd4f76982db75221762fa_hd.png" data-rawwidth="785" data-rawheight="530" class="origin_image zh-lightbox-thumb" width="785" data-original="https://pic3.zhimg.com/v2-1a46d658233bd4f76982db75221762fa_r.png"&gt;

4. 使用自己的图片做检测

如果要检测自己的图片，那么更改TEST_IMAGE_PATHS为自己的图片路径就可以了。这里我随便选了一张COCO数据集中的图片：

TEST_IMAGE_PATHS=['/home/dl/COCO_train2014_000000000009.jpg']

检测结果：

&lt;img src="https://pic1.zhimg.com/50/v2-ad6b48fe6737936cac7bef26b8b0af80_hd.png" data-rawwidth="703" data-rawheight="530" class="origin_image zh-lightbox-thumb" width="703" data-original="https://pic1.zhimg.com/v2-ad6b48fe6737936cac7bef26b8b0af80_r.png"&gt;

5. 使用其他模型做检测

一共公布了5个模型，上面我们只是用最简单的ssd + mobilenet模型做了检测，如何使用其他模型呢？找到Tensorflow detection model zoo（地址：tensorflow/models），根据里面模型的下载地址，我们只要分别把MODEL_NAME修改为以下的值，就可以下载并执行对应的模型了：

MODEL_NAME = 'ssd_inception_v2_coco_11_06_2017'MODEL_NAME = 'rfcn_resnet101_coco_11_06_2017'MODEL_NAME = 'faster_rcnn_resnet101_coco_11_06_2017'MODEL_NAME = 'faster_rcnn_inception_resnet_v2_atrous_coco_11_06_2017'

完。