红外视频图像行人检测算法综述
http://www.doc88.com/p-1137822192539.html 2018年西安邮电大学学报 《改进的YOLOv3红外视频图像行人检测算法》
对于红外视频图像行人检测算法方面进行一个小小的认知和了解
说明:当下用红外视频做自动驾驶方面的比较多,auto-drive,所以数据集基本是车载的。还有双光结合的,这类数据集的较多。如在行人检测(3)——数据集中提到的:自动驾驶类的数据集
- KAIST多光谱行人数据集:640×480,手动标记了所有的行人、骑自行车的人等
- SCUT南方科技大学红外行人数据集:
- FLIR-ADAS红外数据集
1.《改进的YOLOv3红外视频图像行人检测算法》
使用的数据集为CVC公司的CVC-09数据集,还有CVC-14的数据集。YOLOv3在检测红外视频图像行人时存在准确率低、漏检率高的问题。行人在红外图像中呈现宽高比相对固定的特点,利用k-means聚类方法选取目标候选框个数和宽高比维度,调整网络参数并提高输入图像分辨率,最后进行多尺度训练得到最优检测模型。在CV-09数据集上,改进后的网络的准确率达到90.63%,明显优于Faster-rcnn和YOLOv3。
常用的红外行人检测技术主要分为:
- 基于特征分类的方法——依赖于人工设计特征提取器,然后训练分类器进行行人检测,如HOG和SVM
- 人工设计的特征泛化能力差
- 基于深度学习的方法——利用CNN从图像像素中学习行人特征,通过特征训练得到行人检测模型,如CNN、局域CNN和端到端的方法
- CNN不需要人为选择行人特征,但针对不同场景检测需要单独训练模型
- 局域CNN:将特征提取和分类融合进一个分类框架,提高了训练速度和检测的准确率,但由于加入了SVM而繁琐
- 端到端,如SSD-single shot multibox detector,可以解决在特征提取过程中由于图像像素过多导致的维度灾难问题,但SSD对小尺寸和模糊目标的检测效果较差,且检测速度较慢
- YOLO-you look only once在检测速度上远超过SSD,在YOLO在检测相互重叠或者相邻很近的目标时漏检率过高,且泛化能力偏弱。
2. FLIR-ADAS数据集
- 双光图像-红外图像带注释,可见光图像不带注释。车载数据。
- 总共有14452张图像,其中10228张是短视频(帧率为2fps),4224为144s的视频。少部分图像在目标稀少的地区是帧率1fps采集的。
FLIR Thermal Starter数据集提供了带注释的热图像和非带注释的RGB图像集,用于训练和验证目标检测神经网络。通过安装在车辆上的RGB和热像仪获取数据集。数据集总共包含14452张带注释的热图像,其中10228张图像是从短视频中采样的,4224张图像是从连续144秒视频中采样的。所有视频均于11月至5月在美国加利福尼亚州圣塔芭芭拉的街道和高速公路上拍摄。在白天和晚上,在一般晴朗的天空条件下拍摄视频。
用FLIR Tau2(13mm f / 1.0、45-degree HFOV垂直视角和37-degreeVFOV水平视角)获取热图像。 RGB图像是通过FLIR BlackFly在1280 X 512m(4-8 mm f / 1.4-16百万像素镜头,且FOV设置为与Tua2匹配)上获取的。两个摄像机均在默认模式下运行。摄像机位于一个彼此隔开1.9 +/- 0.1英寸的外壳中。使用FLIR专有软件通过USB3视频捕获图像。 10228张热图像中的大多数以每秒两张图像的速度采样(native视频是每秒30帧)。在对象较少的环境中采集的少数图像以每秒一帧的速率采样。
人类注释者标记并在五类对象周围放置边框。在可能的情况下,使用了coco编号方案来编号类别ID。类别ID也记录在“ catids.json”文件中,该文件同时出现在训练和验证文件夹中。
五类目标:人、自行车与摩托车、汽车(私家车和小型商业车)、狗、其他机动车(大卡车、船等)
注释使边界框尽可能紧密。紧凑的边框忽略目标的小部分(例如四肢)的紧定边界框比宽边界框更受青睐。个人附件未包含在人的边框中。发生遮挡时,仅注释对象的未遮挡部分。头和肩膀比人和狗的身体其他部位更受人欢迎。当遮挡只允许肢体的一部分或对象的其他较小部分可见时,则不会对其进行注释。车轮是“自行车”类别的重要组成部分。边界盒中未包括通常被骑手挡住的自行车零件,例如车把。骑自行车的人与自行车分开注释。当对象被遮挡分割时,将为对象的两个可见部分提供两个单独的注释。
注释仅针对热图像创建。热像仪和RGB热像仪在车辆上的位置不同,因此具有不同的观察几何形状,因此热注释不能代表RGB图像中对象的位置。
文件夹结构由三个文件夹组成,每个文件夹都有五个子文件夹。对于采样的图像,已通过两个子文件夹(标记为“ training”和“ validation”)创建了建议的训练和验证集。将整个视频分配到建议的训练或验证集中。
- 紧凑的边框比宽边界的边框更好
存在遮挡时,仅注释目标的未遮挡部分
存在遮挡时,人或狗的头和肩膀比身体的其他部位更重要。
严重遮挡时,如只剩下一部分肢体时,不进行标注。
骑自行车的人与自行车分开注释
目标被遮挡时,两个目标是分开标注的。
Baseline的accuracy对于Training和Validation数据是使用为512*512的图像设计的RefineDetect512的神经网络,且在MSCOCO数据集上预训练过的。(https://arxiv.org/pdf/1711.06897.pdf and https://github.com/sfzhang15/RefineDet)。base神经网络实在8-bit红外图像上训练的,training folder中有标记数据。Test data没有用于训练。实现了所有类别的 mAP IoU(0.5) of 0.587。使用的accuracy测试网址为如下,mAP分数如下。
文件结构中使用了以下子文件夹:
- AnnotationsPreviewData:该文件夹包含“预览数据”中的8位热数据,该数据已处理为将批注文件夹中的批注边界框覆盖在其上。
- 注释:此文件夹包含详细说明边界框和类别信息的json文件。此json文件为标准可可格式。与注释相关的json文件被格式化为python数据字典。字典中的第一个键是“注释”。键返回图像内的注释列表。批注列表中的每个项目均包括以像素为单位的批注区域,边框尺寸,批注ID的类别(请参见“ catids.json”),批注的ID号(在每张图片中,第一张图片都有ID)数字1,第二个具有ID号2,依此类推),与注释关联的图像ID,注释是否用于人群以及分段坐标。边界框尺寸将左上角像素设置为(0,0)。向下移动会增加y像素数。向右移动可增加x像素数。第二个键是“图像”。该键返回有关图像的基本元数据和相关注释。
- 数据:由FLIR Tau2摄像机获取的14位640 X 512热图像,未应用自动增益控制(AGC)。图像采用16位.tiff格式。一个可以查看16位图像的工具集可从以下网址获得:https://imagej.net
- PreviewData:8位,应用AGC,.jpeg格式的图像,否则与“数据”文件夹中的图像相同。 RGB:8位RGB(三通道)图像。请注意,训练中的499张图像,验证中的109张图像和视频中的29张图像没有RGB对应图像。图像分辨率通常为1600 X 1800,但是某些图像的分辨率不同,包括480 X 720、1536 X 2048和1024 X 1280。
2.1jason格式注释
COCO数据集的 标签文件.json解读、理解 跟COCO数据集的标签文件很类似。COCO数据集标注信息
https://blog.csdn.net/fkk921912333/article/details/79129952?utm_medium=distribute.pc_relevant.none-task-blog-baidujs-1
- image_id
- id是每张图像里面不止一个目标,这个是每一个目标的id。它有一个bbox表示它的位置,然后category_id为标记分类,person?car?等。
- image_id为帧号
2.2 jason格式为COCO数据集格式,标注读取和
https://blog.csdn.net/u012435142/article/details/102156018
红外视频图像行人检测算法综述相关推荐
- 无人机视频图像运动目标检测算法综述------2019年-------------
本篇为该综述阅读笔记 论文出处: 国内外研究: 目前,国内外学者利用无人机视频图像开展运动目标检测大多将研究重点放在典型运动目标--车辆上,例如美国[3]德国[4]等,我国也开展了利用无人机检测运动车 ...
- 从R-CNN到YOLO,2020 图像目标检测算法综述
作者丨江户川柯壮@知乎 来源丨https://zhuanlan.zhihu.com/p/242424344 编辑丨极市平台 基于CNN 的目标检测是通过CNN 作为特征提取器,并对得到的图像的带有位置 ...
- 图像物体分类与检测算法综述
图像物体分类与检测算法综述 转自<计算机学报> 目录 图像物体分类与检测算法综述 目录 图像物体分类与检测概述 物体分类与检测的难点与挑战 物体分类与检测数据库 物体分类与检测发展历程 图 ...
- 【SIGAI综述】行人检测算法
其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 本文为S ...
- 【SIGAI综述】行人检测算法(转)
原文链接:https://cloud.tencent.com/developer/article/1441230 小白导读 行人检测是计算机视觉中的经典问题,也是长期以来难以解决的问题.和人脸检测问题 ...
- 红外弱小目标检测算法综述
红外弱小目标检测算法综述 ------ 参考文献: 李俊宏,张萍,王晓玮,黄世泽.红外弱小目标检测算法综述[J].中国图象图形学报,2020,25(09):1739-1753. ------ 依据是否 ...
- 人脸识别中的活体检测算法综述
其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 1. 什 ...
- 病虫害模型算法_基于深度学习的目标检测算法综述
sigai 基于深度学习的目标检测算法综述 导言 目标检测的任务是找出图像中所有感兴趣的目标(物体),确定它们的位置和大小,是机器视觉领域的核心问题之一.由于各类物体有不同的外观,形状,姿态,加上成像 ...
- 行人检测资源综述文献
from: http://blog.csdn.net/GarfieldEr007/article/details/50866089 pedestrian-detection-resource-1-su ...
最新文章
- 进行短视频app开发工作时,可以加入它来保护青少年...
- 日常运维管理技巧十七(Nethogs进程流量监控工具)(转载)
- 从SQL Server 2000/2005到SQL Server 2008的升级测试
- 如何破解无线路由器密码,如何破解WEP密码,破解无线路由器
- Docker Compose部署项目到容器-基于Tomcat和mysql的项目yml配置文件代码
- 如何在 ASP.Net Core 中使用 File Providers
- Keras-10 模型可视化
- 排序算法(三)--冒泡排序法
- podman加速器配置,harbor镜像仓库部署
- 视频分配器中提高信号完整性的方法
- QQ桌球瞄准器开发(5)使用注册表保存配置
- 篮球比赛表式计时器_篮球比赛24秒倒计时器的设计(word文档)
- 公司财务笔记-岭南学院辅修
- [生存志] 第37节 幽王烽火戏诸侯
- 使用navicat导入SQL语句的教程
- flask--虚拟环境
- javascript经典题型:根据用户输入的年份判断是否为闰平年
- 蚂蚁笔记 linux安装教程,群晖docker安装蚂蚁笔记安装教程
- TypeScript 基础数据类型与接口
- centos系统下安装mysql
热门文章
- 157 亿美元 !Salesforce 收购 Tableau !微软发布警告,表明黑客利用Office漏洞发动垃圾邮件攻击……...
- 感谢大家支持,回馈一波大家!
- 基于OMAP-L138电路板的U-boot移植
- oracle 去当前年,Oracle获取当前年、月、日的方法
- 保护主机安全选快卫士
- HybVIO: 突破实时视觉惯性里程计的极限
- 记录以下,Nod32的更新服务器
- 《C现代方法》 第九章 函数
- 阿里系唯一对外开放数据分享平台天池数据集2020收官精品合集大放送
- vue使用高德地图画电子围栏_地理围栏-辅助功能-开发指南-iOS 定位SDK | 高德地图API...