作者 | Bharath Raj

译者 | 孤鸿

编辑 | Jane

出品 | AI 科技大本营(rgznai100 )

【导读】这是一篇关于使用基于深度学习的目标检测来实现监控系统的快速教程。在教程中通过使用 GPU 多处理器来比较不同目标检测模型在行人检测上的性能。

监控是安保和巡逻的一个组成部分,大多数情况下,这项工作都是在长时间去观察发现那些我们不愿意发生的事情。然而突发事件发生的低概率性无法掩盖监控这一平凡工作的重要性,这个工作甚至是至关重要的。

如果有能够代替我们去做“等待和监视”突发事件的工具那就再好不过了。幸运的是,这些年随着技术的进步,我们已经可以编写一些脚本来自动执行监控这一项任务。在深入探究之前,需要我们先考虑两个问题。

机器是否已经达到人类的水平?

任何熟悉深度学习的人都知道图像分类器的准确度已经赶超人类。图1显示了近几年来对于人类、传统计算机视觉 (CV) 和深度学习在 ImageNet 数据集上的分类错误率。





图 1 人类、深度学习和 CV 在 ImageNet 上分类错误率

与人类相比,机器可以更好地监视目标,使用机器进行监视效率更高,其优点可总结如下:

  • 重复的任务会导致人类注意力的下降,而使用机器进行监视时并无这一烦恼,我们可以把更多的精力放在处理出现的突发事件上面。

  • 当要监视的范围较大时,需要大量的人员,固定相机的视野也很有限。但是通过移动监控机器人 (如微型无人机) 就能解决这一问题。

此外,同样的技术可用于各种不受限于安全性的应用程序,如婴儿监视器或自动化产品交付。

那我们该如何实现自动化?

在我们讨论复杂的理论之前,先让我们看一下监控的正常运作方式。我们在观看即时影像时,如果发现异常就采会取行动。因此我们的技术也应该通过仔细阅读视频的每一帧来发现异常的事物,并判断这一过程是否需要报警。

大家可能已经知道了,这个过程实现的本质是通过目标检测定位,它与分类不同,我们需要知道目标的确切位置,而且在单个图像中可能有多个目标。为了更好的区分我们举了一个简单形象的例子如图2所示。



图2 分类、定位、检测和分割的示例图

为了找到确切的位置,我们的算法应该检查图像的每个部分,以找到某类的存在。自2014年以来,深度学习的持续迭代研究引入了精心设计的神经网络,它能够实时检测目标。图3显示了近两年R-CNN、Fast R-CNN 和 Faster R-CNN 三种模型的检测性能。





图3 R-CNN、Fast R-CNN 和 Faster R-CNN 性能

这里有几种在内部使用的不同方法来执行相同任务的深度学习框架。其中最流行的是 Faster-RCNN、YOLO 和 SSD。图4展示了 Faster R-CNN、R-FCN 和 SSD 的检测性能。





图4 Faster R-CNN、R-FCN 和 SSD 的检测性能,速度与准确性的权衡,更高的 mpA 和更低的 GPU 时间是最佳的。

每个模型都依赖于基础分类器,这极大影响了最终的准确性和模型大小。此外,目标检测器的选择会严重影响计算复杂性和最终精度。在选择目标检测算法时,速度、精度和模型大小的权衡关系始终存在着。

在有了上面的学习了解后,接下来我们将学习如何使用目标检测构建一个简单而有效的监控系统。

我们先从由监视任务的性质而引起的限制约束开始讨论起。

深度学习在监控中的限制

在实现自动化监控之前,我们需要考虑以下几个因素:

1.即时影像

为了在大范围内进行观察,我们可能需要多个摄像头。而且,这些摄像头需要有可用来存储数据的地方 (本地或远程位置)。图5为典型的监控摄像头。





图5 典型的监控摄像头

高质量的视频比低质量的视频要占更多的内存。此外,RGB 输入流比 BW 输入流大3倍。由于我们只能存储有限数量的输入流,故通常情况下我们会选择降低质量来保证最大化存储。

因此,可推广的监控系统应该能够解析低质量的图像。同时我们的深度学习算法也必须在低质量的图像上进行训练。

2.处理能力

在哪里处理从相机源获得的数据是另一个大问题。通常有两种方法可以解决这一问题。

集中式服务器处理

来自摄像机的视频流在远程服务器或集群上逐帧处理。这种方法很强大,使我们能够从高精度的复杂模型中获益。但这种方法的缺点是有延迟。此外,如果不用商业 API,则服务器的设置和维护成本会很高。图6显示了三种模型随着推理时间的增长内存的消耗情况。





图6 内存消耗与推理时间(毫秒),大多数高性能模型都会占用大量内存

分散式边缘处理

通过附加一个微控制器来对相机本身进行实时处理。优点在于没有传输延迟,发现异常时还能更快地进行反馈,不会受到 WiFi 或蓝牙的限制 (如 microdrones)。缺点是微控制器没有 GPU 那么强大,因此只能使用精度较低的模型。使用板载 GPU 可以避免这一问题,但是太过于昂贵。图 7 展示了目标检测器 FPS 的性能。





图 7 各类目标检测器 FPS 的性能

训练监控系统

在接下来的内容里我们将会尝试如何使用目标检测进行行人识别。使用 TensorFlow 目标检测 API 来创建目标检测模块,我们还会简要的阐述如何设置 API 并训练它来执行监控任务。整个过程可归纳为三个阶段 (流程图如图8所示):

  • 数据准备

  • 训练模型

  • 推论





图8 目标检测模型的训练工作流程

第1阶段:数据准备

第一步:获取数据集

监控录像是获取最准确数据集的来源。但是,在大多数情况下,想要获取这样的监控录像并不容易。因此,我们需要训练我们的目标检测器使其能从普通图像中识别出目标。





图9 从数据集中提取出带标注的图像

正如前面所说,我们的图像质量可能较差,所以所训练的模型必须适应在这样的图像质量下进行工作。我们对数据集中的图像 (如图9所示) 添加一些噪声或者尝试模糊和腐蚀的手段,来降低数据集中的图片质量。

在目标检测任务中,我们使用了 TownCentre 数据集。使用视频的前3600帧进行训练,剩下的900帧用于测试。

第二步:图像标注

使用像 LabelImg 这样的工具进行标注,这项工作虽然乏味但也同样很重要。我们将标注完的图像保存为 XML 文件。

第三步:克隆存储库

运行以下命令以安装需求文件,编译一些 Protobuf 库并设置路径变量



pip install -r requirements.txt
sudo apt-get install protobuf-compiler
protoc object_detection/protos/*.proto --python_out=.
export PYTHONPATH=$PYTHONPATH:`pwd`:`pwd`/slim



第四步:准备所需的输入

首先,我们需要给每个目标一个标签,并将文件中每个标签表示为如下所示的 label_map.pbtxt

item {id: 1name: ‘target’
}



接下来,创建一个包含 XML 和图像文件名称的文本文件。例如,如果数据集中有 img1.jpg, img2.jpg, 和 img1.xml, img2.xml ,则 trainval.txt 文件的表示应如下所示:

img1
img2



将数据集分为两个文件夹 (图像与标注)。将 label_map.pbtx 和 trainval.txt放在标注文件夹中,然后在标注文件夹中创建一个名为 xmls 的子文件夹,并将所有 XML 文件放入该子文件夹中。目录层次结构应如下所示:



-base_directory
|-images
|-annotations
||-xmls
||-label_map.pbtxt
||-trainval.txt

第五步:创建 TF 记录

API 接受 TPRecords 文件格式的输入。使用 creat_tf_record.py 文件将数据集转换为 TFRecords。我们应该在 base directory 中执行以下命令:

python create_tf_record.py \--data_dir=`pwd` \--output_dir=`pwd`



在该程序执行完后,我们可以获取 train.record 和 val.record 文件。

第2阶段:训练模型

第1步:模型选择

如前所述,速度与准确度两者不可得兼,从头开始创建和训练目标检测器是非常耗时的。因此, TensorFlow 目标检测 API 提供了一系列预先训练好的模型,我们可以根据自己的使用情况进行微调,该过程称为迁移学习,它可以大大提高我们的训练速度。

图10 MS COCO 数据集中一组预训练过的模型

从图 10 中下载一个模型,并将内容解压缩到 base directory 中。可获取模型检查点,固定推理图和 pipeline.config 文件。

第2步:定义训练工作

我们必须在 pipleline.config 文件中定义“训练工作”,并将该文件放到 base directory 中。该文件中最重要的是后几行——我们只需将突出显示的值放到各自的位置。



gradient_clipping_by_norm: 10.0fine_tune_checkpoint: "model.ckpt"from_detection_checkpoint: truenum_steps: 200000
}
train_input_reader {label_map_path: "annotations/label_map.pbtxt"tf_record_input_reader {input_path: "train.record"}
}
eval_config {num_examples: 8000max_evals: 10use_moving_averages: false
}
eval_input_reader {label_map_path: "annotations/label_map.pbtxt"shuffle: falsenum_epochs: 1num_readers: 1tf_record_input_reader {input_path: "val.record"}
}



第3步:开始训练

执行以下命令以启动训练工作,建议使用具有足够大的 GPU 计算机,以便加快训练过程。

python object_detection/train.py \
--logtostderr \
--pipeline_config_path=pipeline.config \
--train_dir=train

第3阶段:推论

第1步:导出训练模型

在模型使用之前,需要将训练好的检查点文件导出到固定推理图上,实现这个过程并不困难,只需要执行以下代码 (用检查点替换“xxxxx”)

python object_detection/export_inference_graph.py \
--input_type=image_tensor \
--pipeline_config_path=pipeline.config \
--trained_checkpoint_prefix=train/model.ckpt-xxxxx \
--output_directory=output



该程序执行完后,我们可得到 frozen_inference_graph.pb 以及一堆检查点文件。

第2步:在视频流上使用

我们需要从视频源中提出每一帧,这可以使用 OpenCV 的 VideoCapture 方法完成,代码如下所示:

cap = cv2.VideoCapture()
flag = True
while(flag):flag, frame = cap.read()## -- Object Detection Code --



第一阶段使用的数据提取代码会使我们的测试集图像自动创建“test_images”文件夹。我们的模型可以通过执行以下命令在测试集上进行工作:

python object_detection/inference.py \
--input_dir={PATH} \
--output_dir={PATH} \
--label_map={PATH} \
--frozen_graph={PATH} \
--num_output_classes=1 \
--n_jobs=1 \
--delay=0



实验

正如前面所讲到的,在选择目标检测模型时,速度与准确度不可得兼。对此我们进行了一些实验,测量使用三种不同的模型检测到人的 FPS 和数量精确度。此外,我们的实验是在不同的资源约束 (GPU并行约束) 条件下操作的。

设置

我们的实验选择了以下的模型,这些模型可以在 TensorFlow 目标检测API 的Zoo 模块中找到。

  • Faster RCNN with ResNet 50

  • SSD with MobileNet v1

  • SSD with InceptionNet v2

所有的模型都在 Google Colab 上进行了 10k 步训练,通过比较模型检测到的人数与实际人数之间的接近程度来衡量计数准确度。在一下约束条件下测试 FPS 的推理速度。

  • Single GPU

  • Two GPUs in parallel

  • Four GPUs in parallel

  • Eight GPUs in parallel

结果

下面的 GIF 是我们在测试集上使用 FasterRCNN 输出的片段。





训练时间

图11展示了以10 k步 (单位:小时) 训练每个模型所需的时间 (不包括参数搜索所需要的时间)





图11 各模型训练所需时间

速度 (每秒帧数)

在之前的实验中,我们测量了3种模型在5种不同资源约束下的 FPS 性能,其测量结果如图12所示:





图12 使用不同 GPU 数量下的 FPS 性能

当我们使用单个 GPU 时,SSD速度非常快,轻松超越 FasterRCNN 的速度。但是当 GPU 个数增加时,FasterRCNN 很快就会追上 SSD 。

为了证明我们的结论:视频处理系统的速度不能高于图像输入系统的速度,我们优先读取图像。图13展示了添加延迟后带有 NobileNet +SSD 的 FPS 改进状况,从图13中可看出当我们加入延迟后,FPS 迅速增加。





图13 增加不同延迟后模型的 FPS 改进状况

计数准确性

我们将计数准确度定义为目标检测系统正确识别出人脸的百分比。图14是我们每个模型精确度的表现,从图14中可看出 FasterRCNN 是准确度最高的模型,MobileNet 的性能优于 InceptionNet。





图 14 各模型计数精确度

Nanonets

看到这里相信大家都有一个共同的感受——步骤太多了吧!是的,如果是这样的一个模型在实际工作即繁重又昂贵。

为此,更好的解决方案就是使用已部署在服务器上的 API 服务。Nanonets 就提供了这样的一个 API,他们将 API 部署在带有 GPU 的高质量硬件上,以便开发者不用为性能而困扰。

Nanonets 可以减少工作的流程的方法在于:我将现有的 XML 注释转换成 JSON 格式并提供给 Nanonets API。所以当不想进行手动注释数据集时,可以直接请求 Nanonets API来为数据添加注释。

上图表示为减少后的工作流程

Nanonets 的训练时间大约花了 2 个小时,就训练时间而言,Nanonets 是明显的赢家,并且在准确性方面 Nanonets 也击败了 FasterRCNN。

FasterRCNN Count Accuracy = 88.77%
Nanonets Count Accuracy = 89.66%

自动监控的可信度有多高?

深度学习是一种令人惊叹的工具。但是我们在多大程度上可以信任我们的监控系统并自动采取行动?在以下几个情况下,自动化过程时需要引起注意。

▌可疑的结论

我们不知道深度学习算法是如何得出结论的。即使数据的馈送过程很完美,也可能存在大量虚假的成功例子。虽然引导反向传播在一定程度上可以解释决策,但是关于这方面的研究还有待我们进一步的研究。

对抗性攻击

深度学习系统很脆弱,对抗性攻击类似于图像的视错觉。计算出的不明显干扰会迫使深度学习模型分类失误。使用相同的原理,研究人员已经能够通过使用 adversarial glasses 来规避基于深度学习的监控系统。

误报

另一个问题是,如果出现误报我们该怎么做。该问题的严重程度取决于应用程序本身。例如边境巡逻系统的误报可能比花园监控系统更重要。

相似的面孔

外观并不像指纹一样独一无二,同卵双胞胎是最好的一个例子。这会带来恨大的干扰。

数据集缺乏多样性

深度学习算法的好坏和数据集有很大关联,Google 曾将一个黑人错误归类为大猩猩。

注:鉴于 GDPR 和以上原因,关于监控自动化的合法性和道德性问题是不可忽视的。此教程也是出于并仅用于学习分享目的。在教程中使用的公开数据集,所以在使用过程中有责任确保它的合法性。

原文链接

https://medium.com/nanonets/how-to-automate-surveillance-easily-with-deep-learning-4eb4fa0cd68d

——【完】——

如何通过深度学习轻松实现自动化监控?相关推荐

  1. 如何通过深度学习轻松实现自动化监控

    本文是使用基于深度学习的对象检测实现监控系统的快速教程. 它还比较了使用GPU多处理进行推理的不同物体检测模型在行人检测方面的性能. 监视是安全和巡逻的一个组成部分. 在大多数情况下,这项工作需要长时 ...

  2. 实战 | 深度学习轻松学:如何用可视化界面来部署深度学习模型 转载 2017年12月27日 00:00:00 109 翻译 | AI科技大本营 参与 | 王赫 上个月,我有幸结识了 DeepCogn

    实战 | 深度学习轻松学:如何用可视化界面来部署深度学习模型 转载 2017年12月27日 00:00:00 标签: 109 编辑 删除 翻译 | AI科技大本营 参与 | 王赫 上个月,我有幸结识了 ...

  3. CUDA上的量化深度学习模型的自动化优化

    CUDA上的量化深度学习模型的自动化优化 深度学习已成功应用于各种任务.在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要.网络量化是加速深度学习模型的有效方法.在量化模型中,数据和模型参 ...

  4. 深度学习模型调试和监控(7.2)

    Keras 高级用法:函数式 API 7.1(二) Keras 高级用法:函数式 API 7.1(一) 7.2 深度学习模型调试和监控 本小节学习如何监控模型训练的过程. 7.2.1 模型训练中应用回 ...

  5. 实战 | 深度学习轻松学:如何用可视化界面来部署深度学习模型

    翻译 | AI科技大本营 参与 | 王赫 上个月,我有幸结识了 DeepCognition.ai 的创始人. Deep Cognition (深度认知) 建立的深度学习工作室,为很多准备部署深度学习框 ...

  6. 基于深度学习的物联网远程监控目标检测

    目标检测是视频监控应用中的关键环节.在远程监控中,需要准确地检测到目标,并将检测到的数据快速传输到主站,以便采取进一步的行动.主要研究了一种利用深度神经网络和物联网对目标进行检测,并将检测到的信息以低 ...

  7. 大咖专栏|拨云见月,专注于深度学习本身

    https://www.toutiao.com/a6709741168336306696/ 文/李三平 作为人工智能大爆炸的核心驱动,深度学习给机器学习领域带来了前所未有的巨大影响.面对火山喷发般的数 ...

  8. 什么是深度学习,深度学习和机器学习之间,主要有什么区别

    在深度学习中,计算机模型学习直接从图像.文本或声音中执行分类任务.深度学习模式可以达到新的精确度,有时甚至超过人类的表现.大多数深度学习方法使用神经网络的架构,这也是深度学习模型通常被称为深度神经网络 ...

  9. 机器学习_深度学习毕设题目汇总——人脸A

    下面是该类的一些题目: 题目 人脸图像处理的去身份算法研究 人脸表情图像识别关键技术的分析与研究 基于卷积神经网络的人脸识别研究 基于多特征融合的人脸表情识别研究 基于字典学习的人脸特征提取及识别研究 ...

最新文章

  1. P2689 东南西北
  2. spring.net 注入 配置
  3. 开始——“运行”命令集
  4. Python字典dict的增删查改及常用操作
  5. puppet结构图一例
  6. Solaris 性能基础
  7. 2019年第十届蓝桥杯国赛B组试题E-路径计数-dfs(坑题)
  8. Linux 命令之 7z(7-zip) -- 压缩/解压文件
  9. [bzoj1036]树的统计
  10. php执行sql内存溢出_SQL Server 2017:SQL排序,溢出,内存和自适应内存授予反馈
  11. 余承东:华为P50系列无5G版本,但依然流畅
  12. 帆软:像阿甘一样,奔跑在商业智能的赛道上!
  13. 操作系统学习之windows发展史
  14. 总数量超过五十个,史上最全的爬虫项目集合
  15. 山东大学暑期实训-饮食健康管理系统设计与实现(十三)
  16. jQuery学习笔记之选取选定复选框的同行某列元素
  17. cad快速看图能合并图纸吗_CAD快速看图可以图纸对比吗?可以!
  18. 新时代知识产权创新发展与严格保护_保护知识产权?宣传强化治理——东安街道团结社区新时代文明实践站大力宣传《知识产权法》...
  19. 今天Delphi盒子打不开了
  20. 人脸识别智能门禁的安全性

热门文章

  1. 企业网络翻译官——DNS
  2. 开关电源三种控制模式:PWM/PFM/PSM
  3. Docker 数据卷之进阶篇
  4. 第3章—高级装配—条件化的Bean
  5. 近期上海面试总结(一)
  6. YII2 models非常好用的控制输出数据【重写Fields】
  7. 【Java】身份证号码验证
  8. 3.Linux Shell流程控制
  9. LR常见的报错处理方法
  10. Services(服务)