TF2目标检测API
作者|Ivan Ralašić 编译|VK 来源|Analytics Vidhya
Tensorflow目标检测API(TF OD API)刚刚变得更好。最近,Google发布了tf od api的新版本,它现在支持Tensorflow 2.x,这是一个我们一直在等待的巨大改进!
简介
最近目标检测(OD)的改进是由工业界广泛采用该技术所推动的。汽车制造商使用目标检测来帮助车辆自主驾驶道路,医生使用它改进诊断过程,农民使用它来检测各种农作物疾病……还有许多其他的使用案例(尚未发现),OD可以提供巨大的价值。
Tensorflow是一个深度学习框架,为自然语言处理(NLP)、语音合成、语义分割和目标检测等领域的许多最先进(SOTA)模型提供了支持。tf od api是一个开放源码的目标检测模型集合,它被深度学习爱好者和该领域的不同专家使用。
现在,当我们讨论了基本术语之后,让我们看看新的tf od api提供了什么!
新TF OD API
新的TF2 OD API引入了Eager执行,使得对象检测模型的调试更加容易;它还包括TF2 Model Zoo支持的新的SOTA模型。对于Tensorflow 1.x的好消息是新的OD API是向后兼容的,所以如果你喜欢,你仍然可以使用TF1,尽管强烈建议切换到TF2 !
除了SSD (MobileNet/ResNet),Faster R-CNN (ResNet/Inception ResNet),和Mask R-CNN模型在TF1 Model Zoo,TF2 Model Zoo引入了新的SOTA模型,如CenterNet, ExtremeNet,和EfficientDet。
TF2 OD API Model Zoo 中的模型是在COCO 2017数据集上预训练的,如果你对数据集中已经包含的类别感兴趣或在新的数据集中进行训练时可以用预训练模型初始化你的模型。预训练模型对于开箱即用的推断很有用。
使用TF OD API模型而不是自己实现SOTA模型可以让你有更多的时间关注数据,这是实现OD模型高性能的另一个关键因素。然而,即使你决定自己构建模型,TF OD API模型也提供了一个很好的性能基准测试!
根据你的要求,你可以从一长串不同型号中进行选择(速度与精度):
Model name | Speed (ms) | COCO mAP | Outputs |
---|---|---|---|
CenterNet HourGlass104 512x512 | 70 | 41.9 | Boxes |
CenterNet HourGlass104 Keypoints 512x512 | 76 | 40.0/61.4 | Boxes/Keypoints |
CenterNet HourGlass104 1024x1024 | 197 | 44.5 | Boxes |
CenterNet HourGlass104 Keypoints 1024x1024 | 211 | 42.8/64.5 | Boxes/Keypoints |
CenterNet Resnet50 V1 FPN 512x512 | 27 | 31.2 | Boxes |
CenterNet Resnet50 V1 FPN Keypoints 512x512 | 30 | 29.3/50.7 | Boxes/Keypoints |
CenterNet Resnet101 V1 FPN 512x512 | 34 | 34.2 | Boxes |
CenterNet Resnet50 V2 512x512 | 27 | 29.5 | Boxes |
CenterNet Resnet50 V2 Keypoints 512x512 | 30 | 27.6/48.2 | Boxes/Keypoints |
EfficientDet D0 512x512 | 39 | 33.6 | Boxes |
EfficientDet D1 640x640 | 54 | 38.4 | Boxes |
EfficientDet D2 768x768 | 67 | 41.8 | Boxes |
EfficientDet D3 896x896 | 95 | 45.4 | Boxes |
EfficientDet D4 1024x1024 | 133 | 48.5 | Boxes |
EfficientDet D5 1280x1280 | 222 | 49.7 | Boxes |
EfficientDet D6 1280x1280 | 268 | 50.5 | Boxes |
EfficientDet D7 1536x1536 | 325 | 51.2 | Boxes |
SSD MobileNet v2 320x320 | 19 | 20.2 | Boxes |
SSD MobileNet V1 FPN 640x640 | 48 | 29.1 | Boxes |
SSD MobileNet V2 FPNLite 320x320 | 22 | 22.2 | Boxes |
SSD MobileNet V2 FPNLite 640x640 | 39 | 28.2 | Boxes |
SSD ResNet50 V1 FPN 640x640 (RetinaNet50) | 46 | 34.3 | Boxes |
SSD ResNet50 V1 FPN 1024x1024 (RetinaNet50) | 87 | 38.3 | Boxes |
SSD ResNet101 V1 FPN 640x640 (RetinaNet101) | 57 | 35.6 | Boxes |
SSD ResNet101 V1 FPN 1024x1024 (RetinaNet101) | 104 | 39.5 | Boxes |
SSD ResNet152 V1 FPN 640x640 (RetinaNet152) | 80 | 35.4 | Boxes |
SSD ResNet152 V1 FPN 1024x1024 (RetinaNet152) | 111 | 39.6 | Boxes |
Faster R-CNN ResNet50 V1 640x640 | 53 | 29.3 | Boxes |
Faster R-CNN ResNet50 V1 1024x1024 | 65 | 31.0 | Boxes |
Faster R-CNN ResNet50 V1 800x1333 | 65 | 31.6 | Boxes |
Faster R-CNN ResNet101 V1 640x640 | 55 | 31.8 | Boxes |
Faster R-CNN ResNet101 V1 1024x1024 | 72 | 37.1 | Boxes |
Faster R-CNN ResNet101 V1 800x1333 | 77 | 36.6 | Boxes |
Faster R-CNN ResNet152 V1 640x640 | 64 | 32.4 | Boxes |
Faster R-CNN ResNet152 V1 1024x1024 | 85 | 37.6 | Boxes |
Faster R-CNN ResNet152 V1 800x1333 | 101 | 37.4 | Boxes |
Faster R-CNN Inception ResNet V2 640x640 | 206 | 37.7 | Boxes |
Faster R-CNN Inception ResNet V2 1024x1024 | 236 | 38.7 | Boxes |
Mask R-CNN Inception ResNet V2 1024x1024 | 301 | 39.0/34.6 | Boxes/Masks |
ExtremeNet | -- | -- | Boxes |
在上表中,你可以看到表中只给出了平均COCO mAP 度量。尽管对于模型的性能来说,这是一个相当好的方向,但是如果你对模型在不同大小或不同类型的对象上的执行情况感兴趣,那么附加的统计信息可能非常有用。例如,如果你对开发高级驱动辅助系统(ADAS)感兴趣,那么你并不真正关心检测器检测香蕉的能力是否不好!
在这篇博客中,我们将重点解释如何对TF2 Model Zoo中现成的、经过预训练的EfficientDet检查点进行详细评估。
EfficientDets OD模型
EfficientDet是一种与RetinaNet模型非常相似的单次探测器,有几个改进:EfficientNet backbone、weighted bi-directional feature pyramid network (BiFPN)和复合缩放方法。
BiFPN是非常流行的FPN的改进版本。该算法在反复应用自顶向下和自下而上的多尺度特征融合的同时,学习表示不同输入特征重要性的权重。
资料来源:https://arxiv.org/pdf/1911.09070.pdf
为了提高目标检测模型的准确性,通常的方法是增加输入图像的大小或使用更大的骨干网。复合缩放不是在单一维度或有限的缩放维度上操作,而是联合缩放中枢、特征网络和盒/类预测网络的分辨率/深度/宽度。
具有不同缩放因子的EfficientDet模型包含在tf OD API Model Zoo中,缩放因子用模型名称中的{X}表示,而输入图像分辨率表示为{RES}X{RES}EfficientDet D{X}{RES}X{RES}。
复合缩放配置效率设置。资料来源:https://arxiv.org/pdf/1911.09070.pdf
EfficientDet体系结构以EfficientNet为骨干网,BiFPN为特征网络,共享类/盒预测网络。资料来源:https://arxiv.org/pdf/1911.09070.pdf
预训练的EfficientDet评估
我们希望进行详细的精度比较,以研究复合缩放配置对网络本身性能的影响。
基于这个原因,我们创建了一个google colab Notebook,其中我们解释了如何对模型进行评估,以及如何有效地比较评估结果。我们对详细的评估统计数据感兴趣,包括每个类和不同对象大小的统计信息。
不幸的是,tf od api不支持这种现成的统计信息。这就是为什么我们创建了TF OD repo的一个分支,并更新了相关的脚本,以按照本issue中给出的说明引入此功能:https://github.com/tensorflow/models/issues/4778#issuecomment-430262110
Notebook中,我们提供了有关如何设置Tensorflow 2和TF2 OD API的说明。我们还包括一些脚本,这些脚本可以方便地下载EfficientDet检查点,以及其他脚本,帮助你获取COCO 2017 Val数据集并创建tf record文件,这些文件在评估阶段由TF OD API使用。
最后,我们修改pipeline.config用于EfficientDet检查点,为8个EfficientDet检查点的顺序评估做好准备。tfodapi使用它们来配置训练和评估过程。训练管道的模式可以object_detection/protos/pipeline.proto
找到。在较高级别上,配置文件分为5个部分:
Modell_config。这定义了将要训练的模型类型(即元体系结构、特征提取器…)。
train_config,它决定应该使用哪些参数来训练模型参数(即,SGD参数、输入预处理和特征提取程序初始化值…)。
eval_config,它确定将报告哪些度量以供评估。
train_input_config,它定义了模型应该在哪个数据集上训练。
eval_input_config,它定义将对哪个数据集评估模型。通常这应该不同于训练输入数据集。
model {
(... Add model config here...)
}
train_config : {
(... Add train_config here...)
}
train_input_reader: {
(... Add train_input configuration here...)
}
eval_config: {
}
eval_input_reader: {
(... Add eval_input configuration here...)
}
我们只对配置文件的eval_config和eval_input_config部分感兴趣。请仔细查看google colab中的这个单元格,以了解有关如何设置eval参数的更多详细信息。
在TF OD API中没有现成启用的另外两个标志是:include_metrics_per_category和all_metrics_per_category。在应用Colab Notebook中给出的补丁后,当设置为true时,这两个将启用我们感兴趣的详细统计信息(每个类别和大小)!
Allegro Trains-高效实验管理
为了能够有效地比较模型评估,我们使用了一个开源的实验管理工具allegro trains。很容易将其集成到代码中,并且可以实现开箱即用的不同功能。它可以作为Tensorboard的替代品,用于可视化实验结果。
OD API中的主脚本是object_detection/model_main_tf2.py
。它同时处理训练和评估阶段。我们创建了一个小脚本,在循环中调用model_main_tf.py来计算所有EfficientDet检查点。
为了将Allegro Trains实验管理集成到评估脚本中,我们必须添加2(+1)行代码。在model_main_tf2.py
脚本中,我们添加了以下行:
from trains import Tasktask = Task.init(project_name="NAME_OF_THE_PROJECT", task_name="NAME_OF_THE_TASK")# 可选-记录pipeline.config进入训练仪表板
task.connect_configuration(FLAGS.pipeline_config_path)
在训练时会自动为你记录很多事情。你可以在这里找到一个全面的特征列表:https://allegro.ai/docs/concepts_arch/concepts_arch/
比较不同的EfficientDet模型
在此链接中,你可以找到对包含在TF2 OD API中的8个EfficientDet模型的评估结果。我们将这些实验命名为efficientdet_d{X}_coco17_tpu-32
,其中{x}表示efficientdet模型的复合比例因子。如果你运行Colab Notebook,你会得到同样的结果,你的实验会显示在demo Trains服务器上:https://demoapp.trains.allegro.ai/。
在本节中,我们将向你展示如何有效地比较不同的模型,并在评估数据集中验证它们的性能。我们使用COCO 2017 Val数据集,因为它是用于评估TF OD API中目标检测模型的标准数据集。
我们对COCO目标检测模型评估度量感兴趣。按这里查看实验结果。这个页面包含我们感兴趣的所有指标的图表:https://demoapp.trains.allegro.ai/projects/8d752f81080b46cb9bf6ebcaf35bc8d2/experiments/950e39d811aa413d81aa0f2c8cbf0e5a/info-output/metrics/scalar?columns=selected&columns=type&columns=name&columns=tags&columns=status&columns=project.name&columns=users&columns=started&columns=last_update&columns=last_iteration&order=-name
我们可以先看看DetectionBoxes_Precision
图,它包含数据集中所有类别的平均精度度量。mAP度量值的值与TF2 Model Zoo中的表中报告的mAP度量值相对应。
多亏了我们应用pycocotools
的补丁,我们还可以获得每个类别的mAP度量。由于COCO数据集中有90个类别,我们想知道每个类别对平均精度的贡献。通过这种方式,我们可以更精确地了解评估模型的性能。
例如,你可能对模型如何仅对特定类别中的小对象执行操作感兴趣。从汇总的统计数据来看,不可能获得这样的结论,而建议的补丁程序可以做到这一点!
我们还使用Allegro Trains的能力来比较多个实验。实验对比表明了模型之间的所有差异。我们首先可以得到相关统计数据的详细标量和图表比较。在我们的示例中,我们将比较efficientdetd0、D1和D2模型的性能。显然,复合标度对模型的性能有积极的影响。
拥有每个类别的统计信息的另一个好处是,你可以分析复合比例因子对特定类别兴趣的准确性的影响。例如,如果你对监控视频中的公交车感兴趣,可以分析显示公交车类别的mAP性能与EfficientDet模型的复合比例因子的关系图。这有助于决定使用哪种模型,以及性能和计算复杂性之间的最佳位置!
你还可以比较其中一个有趣的东西是模型配置文件pipeline.config
. 你可以看到EfficientDet模型之间的基本区别在于输入图像的尺寸和滤波器的数量/深度,如前所述。
下一个图包含3个EfficientDet模型的mAP值。提高输入图像分辨率以及增加模型中滤波器的数量有明显的好处。D0模型的mAP为33.55%,D2模型的mAP为41.79%。你还可以尝试执行每个类的比较、其他EfficientDet模型的比较,或者你认为对你的应用程序感兴趣的任何东西。
如何使用TF-OD-API来提高建筑工地的安全性?
Forsight是一个早期的创业公司,我们的任务是把建筑工地变成工人的安全环境。Forsight利用计算机视觉和机器学习,处理实时闭路电视画面,帮助安全工程师监控个人防护设备(PPE)的正确使用,确保现场安全。
我们的施工现场监控管道建立在TF OD API之上,其功能包括PPE检测和监控、社会距离跟踪、虚拟土工围栏监控、禁止停车区监控和火灾探测。在Forsight,我们还使用Trains来记录我们的实验,在团队成员之间分享,并记录所有的事情,以便我们能够重现。
随着COVID-19流感大流行的持续,世界各地的建筑项目都在积极寻找方法,在保证工人安全的前提下,重新启动或维持项目。计算机视觉和机器学习可以帮助建筑经理确保他们的建筑工地是安全的。我们建立了一个实时监控管道,跟踪员工之间的距离。
除了COVID带来的新的、无形的威胁外,所有建筑工人每天都面临一些古老的危险,尤其是“致命的四个”:坠落、被物体击中、夹在中间或夹在中间以及触电的危险。确保工人穿戴个人防护用品对建筑工地的整体安全至关重要。tfodapi是构建一个自治的PPE监控管道的一个很好的起点。我们的下一个博客将讨论如何使用新的tfodapi训练一个基本的头盔探测器。
建筑工地的某些区域比其他地方更危险。创建虚拟的土工围栏区域并使用闭路电视摄像头监控这些区域,为施工经理增加了巨大的价值,因为他们可以专注于其他任务,同时也能意识到现场发生的任何土工围栏违规事件。此外,地理围栏可以很容易地扩展到监控机器和重型设备的访问。
结论
在本博客中,我们讨论了使用新的TF2 OD API的好处。我们展示了如何有效地评估预训练的OD模型,这些模型可以在tf OD API Model Zoo中找到。我们还展示了如何使用Allegro Trains作为有效的实验管理解决方案,实现强大的洞察力和统计数据。最后,我们展示了目标检测在构建环境中的一些实际应用。
在博客中提供有关使用此博客API的第一个博客的建议。在下一篇博客中,我们将展示如何训练一个定制的目标检测器,使你能够检测到穿戴PPE的工人。请跟随我们获取更多的实践教程!
[1] “Speed/accuracy trade-offs for modern convolutional object detectors.” Huang J, Rathod V, Sun C, Zhu M, Korattikara A, Fathi A, Fischer I, Wojna Z, Song Y, Guadarrama S, Murphy K, CVPR 2017
[2] TensorFlow Object Detection API, https://github.com/tensorflow/models/tree/master/research/object_detection
[3] “EfficientDet: Scalable and Efficient Object Detection” Mingxing Tan, Ruoming Pang, Quoc V. Le, https://arxiv.org/abs/1911.09070
[4] “EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks” Mingxing Tan and Quoc V. Le, 2019, https://arxiv.org/abs/1905.11946
原文链接:https://towardsdatascience.com/new-tf2-object-detection-api-5c6ea8362a8c
欢迎关注磐创AI博客站: http://panchuang.net/
sklearn机器学习中文官方文档: http://sklearn123.com/
欢迎关注磐创博客资源汇总站: http://docs.panchuang.net/
TF2目标检测API相关推荐
- tensorflow 目标检测API及jupyter notebook 虚拟环境配置
环境 tensorflow == 2.8.0 win10 or linux 概要 目标检测项目的主要步骤如下: 搭建虚拟环境 采集图像并打标 训练 预测 模型的保存和转换 调优 项目部署 1. 搭建虚 ...
- 用 TensorFlow 目标检测 API 发现皮卡丘!
在 TensorFlow 众多功能和工具中,有一个名为 TensorFlow 目标检测 API 的组件.这个库的功能正如它的名字,是用来训练神经网络检测视频帧中目标的能力,比如,一副图像. 需要查看我 ...
- 谷歌更新TensorFlow目标检测API
去年谷歌发布了TensorFlow目标检测API[7],从那以后陆续添加了很多新特性,比如Neural Architecture Search[1]的模型学习,支持实例分割[8],在谷歌的超大数据集O ...
- 深度学习实战(七)——目标检测API训练自己的数据集(R-FCN数据集制作+训练+测试)
TensorFlow提供的网络结构的预训练权重:https://cloud.tencent.com/developer/article/1006123 将voc数据集转换成.tfrecord格式供te ...
- tensorflow目标检测API实现
tensorflow目标检测API实现(windows环境) 1下载Anaconda(https://repo.continuum.io/archive/Anaconda3-4.2.0-Windows ...
- TF2的目标检测API
Google发布了tf od api的新版本,它现在支持Tensorflow 2.x,这是一个我们一直在等待的巨大改进! 简介 目标检测(OD)改进是由工业界广泛采用该技术所推动的.汽车制造商使用目标 ...
- TF目标检测API-Error: Argument must be a dense tensor: range(0, 3) - got shape [3], but wanted []....
转自:https://blog.csdn.net/lovebyz/article/details/80668881 出错原因:知乎的大佬说是python3的兼容问题 解决办法:把research/ob ...
- 识别迷雾中的物体,谷歌提出最新目标检测算法Context R-CNN
晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 你能从下面的照片里看到什么吗? 呃,看起来像清晨的浓雾,但浓雾后面是什么,真的看不清楚.其实这是一群牛羚在山上行走. 虽然人眼已经无能为力 ...
- X射线图像中的目标检测
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 1 动机和背景 每天有数百万人乘坐地铁.民航飞机等公共交通工具,因 ...
最新文章
- 生信入门必须掌握的 30 个 Linux 命令
- 30 分钟 git 命令入门
- slave-pxc后GTID不一致
- 最简单的设置按钮的鼠标悬停效果
- Leet Code OJ 119. Pascal's Triangle II [Difficulty: Easy]
- VHDL简单微处理器的设计
- PAT1015 德才论(C++)
- Windows7多合一镜像制作
- 【Atcoder agc020 C】Median Sum,序列子集和中位数,bitset,01背包
- IText PDF签章时,如何获取PDF页的坐标
- 工作量统计系统 python_软件测试工作量统计新方法
- js原生往父元素中添加子元素
- SQL 升序、降序排列
- laravel 将汉字转化成拼音的库
- mysql notifier什么_MySQLNotifier这个东西有什么作用?
- VMware虚拟机Mac-OS-X系统如何切换中英文输入法
- dell 2u服务器型号,DELL R730 2U机架式服务器
- 气象接口返回图标_中国天气网API接口
- 数据结构 Hash,哈希冲突,哈希聚集,BloomFilter,分布式一致性hash
- Web Components 的使用,从入门到基础
热门文章
- select每门可说大于90分_查找选修课程超过3门,并且成绩都在90分以上的学生的学号_学小易找答案...
- 使用C语言根据年月日求星期(基姆拉尔森计算公式)。
- Python:直观地查看某个物品使用一段时间之后每天的平摊价格
- 什么是闭包?有哪些使用场景?优缺点是什么?
- 虚幻竞技场中的控制台命令
- 华为OD机试真题 JS 实现【检测热点字符】【2023 Q1 | 100分】
- 漫画 | 最让程序员抓狂的7件事
- 文件管理 —— 文件存储空间管理
- 深度学习数据集怎么找?
- vue2-router.beforeEach不同角色登录到不同页面