大尺寸卫星图像目标检测:yoloT

  1. 前言

YOLT论文全称「You Only Look Twice: Rapid
Multi-Scale Object Detection In Satellite Imagery」,是专为卫星图像目标检测而设计的一个检测器,是在YOLOV2的基础上进行改进的。

论文原文:https://arxiv.org/abs/1805.09512?context=cs.CV

代码实现:https://github.com/CosmiQ/yolt

  1. 介绍

大范围图像中的小目标检测是卫星图像分析的主要问题之一。虽然地面图像中的目标检测得益于对新的深度学习方法的研究,但将这种技术过渡到头顶图像并非易事。挑战之一是每幅图像的像素数量和地理范围:一幅DigitalGlobe卫星图像的面积超过64平方公里,像素超过2.5亿。另一个挑战是,感兴趣的物体很小(通常只有10像素),这使传统的计算机视觉技术复杂化。为了解决这些问题,我们提出了一个管道(你只看两次,或者说YOLT),它可以以大于0.5 km2/s的速度评估任意大小的卫星图像。该方法可以在多个传感器上用相对较少的训练数据快速检测出不同尺度的物体。我们评估了原始分辨率下的大型测试图像,得到了F1>0.8的车辆定位分数。通过系统地测试管道在降低分辨率时的分辨率和目标大小要求,我们进一步探索了分辨率和目标大小的要求,并得出结论:只有~5像素大小的目标仍然可以高置信度地定位。

  1. YOLT核心理论

由于各种原因,深度学习方法在传统目标检测管道中的应用是不平凡的,由于卫星图像的独特性,需要采用多分辨率算法来解决与前景目标的空间范围、完全旋转不变性和大尺度搜索空间相关的挑战。排除实现细节,算法必须调整:感兴趣的卫星图像对象中的小空间范围通常非常小且密集,而不是像网数据中典型的大而突出的对象。在卫星领域,分辨率通常定义为地面采样距离(GSD),它描述一个图像像素的物理尺寸。商用图像从最清晰的数字地球图像的30厘米GSD到行星图像的3-4米GSD不等。这意味着,对于小型物体,如汽车座椅,即使在最高分辨率下,物体的范围也只有15像素。从头顶观察的完全旋转不变性对象可以具有任何方向(例如,船舶可以具有0到360度之间的任何航向,其中图像网数据中的树是可靠垂直的)。训练示例频率有一个相对地球的训练数据(尽管像SpaceNet这样的努力有可能改善这个问题)超高分辨率的输入图像是巨大的(通常是数亿像素),所以简单地降低采样到大多数算法所需的输入大小(几百像素)不是一个选项(见图1)。

卫星图像目标检测的主要几个难点以及YOLT的解决方案

我们来描述一下这几个难点和解决方案:

第一,卫星图目标的「尺寸,方向多样」。卫星图是从空中拍摄的,因此角度不固定,像船、汽车的方向都可能和常规目标检测算法中的差别较大,因此检测难度大。针对这一点的解决方案是对数据做「尺度变换,旋转等数据增强操作」。

第二,「小目标的检测难度大」。针对这一点解决方案有下面三点。

1、修改网络结构,使得YOLOV2的stride变成,而不是原始的,这样有利于检测出大小在。

2、沿用YOLOV2中的passthrough
layer,融合不同尺度的特征(和大小的特征),这种特征融合做法在目前大部分通用目标检测算法中被用来提升对小目标的检测效果。

3、不同尺度的检测模型融合,即Ensemble,原因是例如飞机和机场的尺度差异很大,因此采用不同尺度的输入训练检测模型,然后再融合检测结果得到最终输出。

第三,「卫星图像尺寸太大」。解决方案有将原始图像切块,然后分别输入模型进行检测以及将不同尺度的检测模型进行融合。

YOLT的网络结构如Table1所示:

YOLT的网络结构

可以看到网络结构相对于YOLOV2最大的修改就是最后输出特征尺寸只到了,这样就能有效的提高对小目标的检测效果。

  1. 一些观察

Figure2展示了使用两种不同类型的图像作为输入时模型(原始的YOLOv2)的预测结果对比,左边是直接把卫星图像原图resize到大小,可有看到结果是一辆车都检测不出来。右边则是从原图中裁剪出大小的区域然后作为模型的输入,可以看到部分车被检测出来了,但是效果一般。从这个实验可以发现,如果直接将原图resize到网络输入大小是不靠谱的,所以YOLT采用了裁剪方式进行训练和测试图片。

将原图resize到网络输入大小是不合理的,还是得使用裁剪方式

Figure4则展示了在测试模型时如何对输入图像进行处理。

YOLT在测试模型时如何对输入图像进行处理

上半部分表示的是原始的卫星图片,因为图片分辨率太大,所以采用了划窗方式裁剪指定尺寸如的图像作为模型的输入,论文将裁剪后的区域称为chip,并且相邻的chip会有15%的重叠,这样做的目的是为了保证每个区域都能被完整检测到,虽然这带来了一些重复检测,但可以通过NMS算法滤掉。通过这种操作,一张卫星图像会被裁剪出数百/千张指定尺寸的图像,这些图像被检测之后将检测结果合并经过NMS处理后就可以获得最终的检测结果了。

Figure5展示了训练数据的整体情况,一共有个类别,包括飞机,船,建筑物,汽车,机场等。对训练数据的处理和测试数据是类似的,也是从原图裁剪多个chip喂给网络。

训练数据的整体情况,一共5个类别,注意有两张图像都是车

这篇论文的一个核心操作就是:

针对「机场目标」和「其它目标」分别训练了一个检测模型,这两个检测模型的输入图像尺度也不一样,测试图像时同理,最后将不同检测模型、不同chip的检测结果合并在一起就得到最终一张卫星图像的输出。也即是说这篇文章的核心操作就是这个「不同尺度的模型融合」以及「针对机场单独训练一个模型」,这样确实是从数据出发能够很好的解决实际场景(卫星图像)中机场目标数据太少带来的问题。

  1. 实验结果

Figure7展示了一张对于汽车目标的检测结果,可以看到效果还是不错的,并且在内能获得结果,同时F1值达到0.95。

YOLT对汽车目标的检测结果可视化

接下来作者还对不同输入分辨率做了实验,Figure10代表对原始分辨率(左上角的0.15m表示GSD是0.15m)进行不同程度的放大之后获得的低分辨率图像,这些图像都被用来训练模型,

不同分辨率的卫星图像

然后Figure13将不同分辨率输入下检测模型的F1值进行了图表量化,其中横坐标代表目标的像素尺寸。可以看到,随着分辨率的降低,图像中目标的像素尺寸也越来越小,检测效果(F1值)也越来越低。

我们还可以发现即便目标只有个像素点,依然有很好的检测效果,但需要注意的是这里的个像素点指的是在原图上,你crop之后目标的相对于网络输入的大小肯定是大于个像素点的,至少让YOLT网络能够检测出来。

不同分辨率输入下检测模型的F1值可视化

其中不同的场景有不同颜色的线代表,不过这不重要,重要的已经讲过了。

Figure12则可视化了不同分辨率图像的检测效果,左边是15cm GSD的结果,右边则表示了90cm GSD的效果,直观来说,左边的效果是比右边好的。

不同分辨率图像的检测效果

Table3展示了YOLT算法对于不同目标的测试精度以及速度情况。

YOLT算法对于不同目标的测试精度以及速度情况

  1. 结论

在ImageNet风格的数据集中,目标检测算法在目标定位方面取得了很大的进展。然而,这种算法很少能很好地适应卫星图像中的目标大小或方向,也没有设计出数以亿计像素的处理图像。为了解决这些限制,本文实现了一个完全卷积的神经网络工作管道(YOLT),以快速定位卫星图像中的车辆、建筑物和机场。注意到,由于大小特征(如高速公路和跑道)之间的混淆,组合分类器的结果很差。在不同规模上训练双分类器(一个用于建筑物/车辆,一个用于基础设施),取得了更好的效果。根据类别,此管道产生的目标检测F1分数约为0.6~-0.9。虽然F1的分数可能不在许多读者从ImageNet比赛中习惯的水平,但卫星图像中的目标检测仍然是相对新生的领域,有着独特的挑战。此外,对于监督学习方法,针对大多数类别的训练数据集都相对较小,并且F1分数可能会随着检测的进一步后处理而提高。本文还演示了在一个传感器(如数字地球仪)上进行训练的能力,并将我们的模型应用于另一个传感器(如行星仪)。实验表明,至少对于从头顶观看的汽车,大于5像素的物体大小产生的物体检测分数F1>0.85。探测管道能够以自然分辨率评估任意输入尺寸的卫星和航空图像,以≈30km2的速率处理车辆和建筑物,以≈6000km2的速率处理机场。在这种推理速度下,16GPU集群可以对数字地球观3卫星进行实时推理。

大尺寸卫星图像目标检测:yoloT相关推荐

  1. tensorflow遥感图像分类_在线讲座 | 高分辨率遥感图像目标检测和场景分类研究进展...

    近年来,深度学习技术驱动的高分辨率遥感图像目标检测和场景分类取得了重大研究进展.由于深度学习的快速发展,导致相关研究进展很难被跟进,特别是对于刚踏入该领域的研究者而言.● 该领域的研究还面临哪些挑战和 ...

  2. 基于深度学习的高分辨率遥感图像目标检测技术目前的研究现状

    参考   基于深度学习的高分辨率遥感图像目标检测技术目前的研究现状 - 云+社区 - 腾讯云 目录 一.概述 二.通用目标检测方法 1.类不平衡问题 2.复杂背景 3.目标的尺度变化 4.特殊视角 5 ...

  3. 深度学习在遥感图像目标检测中的应用综述

    深度学习在遥感图像目标检测中的应用综述 1 人工智能发展 1.1 发展历程 1.2 深度学习的应用 2 深度学习 2.1 机器学习概述 2.2 神经网络模型 2.3 深度学习 2.4 深度学习主要模型 ...

  4. 砍掉九成代码,重构并简化YOLOv5图像目标检测推理实现

    YOLOv5官方开源代码给出了完成的推理实现,但过于封装,只能通过修改配置参数对指定文件夹下图像和视频进行推理,而且三百多行的推理代码也显得过于冗长.如果想要在项目上进行部署应用,显然需要更高的灵活性 ...

  5. Google开启全新图像目标检测大赛,场景多样性和复杂度史无前例

    铜灵 编译整理 量子位 出品 | 公众号 QbitAI 昨天,谷歌又开启了一场全新的图像目标检测大赛(Google AI Open Images - Object Detection Track). ...

  6. streamlit + opencv/YOLOv3 快速构建自己的图像目标检测demo网页(七)

    文章目录 1 案例介绍 2 依赖安装 3 页面使用 4 源码细节解析 4.1 直接读入markdown文件 4.2 加载文件与图片 4.3 opencv + yolov3 检测函数 系列参考: pyt ...

  7. 2021年 遥感图像目标检测SOTA模型及排行榜

    2021年 遥感图像目标检测SOTA模型及排行榜 本文禁止转载!!! Baseline: DOTA1.0 (Task1) DOTA1.0 (Task2) 可视化 不同模型性能(mAP+文章+源码): ...

  8. MSTAR数据库结合深度学习(SAR图像目标检测与识别)

    MSTAR数据库作为SAR图像自动目标识别(SAR ATR)研究的一个通用库,被很多学者广泛采用.从现有的SAR ATR系统处理流程来看,目标检测作为该系统的前端,很大程度上影响系统后续识别性能,在较 ...

  9. 视频目标检测与图像目标检测的区别

    一. 前言 本文介绍了知乎上关于视频目标检测与图像目标检测的区别的几位大佬的回答.主要内容包括有视频目标检测与图像目标检测的区别.视频目标检测的研究进展.研究思路和方法. 作者:Naiyan Wang ...

最新文章

  1. 图解Oracle 12c 触发器实例
  2. 【密码学】一万字带您走进密码学的世界(上)
  3. mysql主从结构主数据库_mysql主从结构主数据库中的日志
  4. 他无一纸文凭,何以成为清华教授,被誉为“三百年才出一个的大师”?
  5. 遭做空后又被律所调查 贾跃亭的FF上市不到3个月股价已近腰斩
  6. 数据库主键从某个值开始自增
  7. 对中小电商卖家来说,找1-2个靠谱的供应链,不需要多
  8. jdbc 自增id 原理_如何实现 Oracle 的自增序列,两步轻松搞定
  9. BeanDefinitionRegistryPostProcessor是什么?
  10. Eclipse安装包 百度网盘
  11. 前端开发【WEUI框架】移动端H5页面开发
  12. 区块链会议_2018杭州云栖大会区块链相关_20180919
  13. HTML中使用IconFont图标
  14. 浏览器访问IPv6地址
  15. git 终端配置mac(udacity)
  16. android 关闭来电铃声,Android删除除自定义铃声后,来电铃声显示是一串数字
  17. 《解构产品经理互联网产品策划入门》PDF+《互联网产品运营产品经理的10堂精英课》PDF分析...
  18. 北京车牌到底有什么优势?
  19. 2017 计蒜之道 初赛 第四场 (第二题) B. 商汤科技的行人检测(简单)
  20. c语言实现灰度图转换为二值图

热门文章

  1. 获取token的两种方法
  2. 华中科技大-汉明校验码设计
  3. CSS top、margin-top和padding-top的区别
  4. 【渝粤教育】电大中专Office办公软件 (15)作业 题库
  5. PDF-XChange Editor
  6. 大数据——把Kafka中的数据传输到HBase中
  7. 基于 HTML5 WebGL 的高炉炉体三维热力图监控,展示“智慧工厂”十八般武艺
  8. 美团后台开发实习生面试经验
  9. python 裁剪图片
  10. Android中实现截图的几种方式