数据分享 | 中国典型城市建筑物实例数据集
目录
1.数据产品概述
2.数据采集与处理
3.数据样本描述
4.数据质量控制和评估
5.数据价值与意义
6.数据使用方法和建议
7.论文及数据获取
文章引用格式
数据引用格式
数据发布历史
论文/数据访问链接
1.数据产品概述
建筑物轮廓信息是国家基础地理信息的重要组成部分。高精度建筑物轮廓自动提取往往依赖于大规模的建筑物标注样本。为了丰富中国地区建筑物提取数据集,中国地质大学(武汉)方芳团队以高分辨率遥感影像为数据源,采用人工标注与交互式标注相结合的方式构建形成中国典型城市建筑物实例数据集。
本数据集包含7260个影像区域样本,共63886栋建筑物,分布在北京、上海、深圳及武汉4个城市。数据集由MS COCO 2017格式的标注文件及相应的建筑物掩膜二值图构成,可为研究高分辨率遥感影像的建筑物检测和提取提供基础数据。
2.数据采集与处理
选取北京、上海、深圳、武汉等4个具有代表性的城市中心城区作为数据采集目标区域。原始数据源自由谷歌提供的19级卫星影像,地面分辨率为0.29m。为了提高数据集的通用性,数据区域的选取包括正射影像和非正射影像区域、建筑物稀疏分布和密集分布区域,同时考虑建筑物轮廓形状多样性等因素。数据集样本覆盖区域共计约 120 平方公里。
数据处理及标注的流程如图所示,处理流程主要包含数据预处理阶段、人工标注阶段和人机交互标注阶段。
3.数据样本描述
该数据集以“遥感影像+数据标注文件”的形式组织存储,分别存储原始遥感影像和所对应的建筑物轮廓标注信息。数据集样本包括训练集和测试集两个文件夹,每个文件夹包含一个遥感影像数据文件夹和一个json格式标注文件。数据集的文件组织形式如表 所示。
其中,tif格式文件为500×500像素的包含位置信息的原始遥感影像;json格式文件则描述了该遥感影像所对应的建筑物轮廓标注信息,主要包括4个方面的信息:info、images、categories和annotations。其中,info记录的是数据集的制作年份、版本、描述等基本信息;images记录了数据集中影像的大小等信息;categories将类别从名称映射到类别编号;annotations则记录了标注编号、标注对应的影像编号、建筑物轮廓点坐标等标注信息。
下图展示了在4个城市中选取的具有代表性的遥感影像及相应的建筑物轮廓。
4.数据质量控制和评估
为保证数据集质量,该研究团队在影像整理和检查、人工标注和交互式标注阶段均采用了完整的质量控制过程,通过多重检查保证标注数据的可靠性、完整性和统一性。在影像整理和检查阶段,人工剔除了失真、畸变、模糊等影像,以减少原始影像引入的噪声。
在人工标注阶段采用人工交叉检验方法检查标注结果并修正发现的问题,检查内容包括标注轮廓不完整、建筑物标注遗漏以及非建筑物误标注为建筑物等。交互式标注阶段则重点检查标签文件的准确性、一致性,确保标注质量。为避免影像标签缺失、标签与影像匹配错误等问题,采用循环遍历算法进行检验,并对错误数据逐一确认和修改。
5.数据价值与意义
该数据集是首个公开的取材于国内城市的高分辨率遥感影像城市建筑物轮廓的实例分割数据集,从一定程度上反映了国内的建筑物特征和遥感影像的关系,丰富了遥感领域建筑物数据集,有望更好地支撑国内遥感影像建筑物提取的研究和生产。该数据集的组织和标注方式与常用实例分割数据集一致,可以很方便地服务于影像分割任务。
6.数据使用方法和建议
该数据集可用于实例分割任务和基于像素级别的语义分割任务。数据集的使用方法与常用于上述两种分割任务的标准数据集使用方法一致,总体步骤如图所示。
对于实例分割任务,该数据集采用的标注格式与实例分割数据集MS COCO相同,使用方式相同。实例分割任务可通过解析json文件,从annotations字段中批量读取建筑物轮廓标注;从images字段中获取影像存储路径,进而获取实例标注所对应的建筑物影像。实例分割模型可将获取的标注和影像两类信息作为输入,进行模型的训练和预测。语义分割的类别标签是像素级的,其中建筑物区域对应的像素值为1,非建筑物区域对应的像素值为0。每个样本的标签存储在一个png文件中,其原始影像文件存储在与标签相同文件名的tif文件中。语义分割任务依次读取每个样本的标注和影像文件,输入到语义分割模型中进行训练和预测。
7.论文及数据获取
文章引用格式
方芳, 吴开顺, 郑道远, 等.中国典型城市建筑物实例数据集[J/OL]. 中国科学数据,2021,6(1). (2021-03-19). DOI: 10.11922/noda.2021.0013.zh.
数据引用格式
方芳,吴开顺,郑道远,等.中国典型城市建筑物实例数据集[DB/OL].Science Data Bank,2021.(2021-03-19). DOI:10.11922/sciencedb.00620.
数据发布历史
2021-03-25 发布V1.0版本
2021-03-31 在线更新V2.0
论文/数据访问链接
微信公众号“Geo地理数据研究所”后台回复“20211202”获取数据集
数据分享 | 中国典型城市建筑物实例数据集相关推荐
- 生物多样性数据:中国物种体内污染物含量数据集,可用于评估物种生存风险,55297条
摘要 污染物在多种生物体内被广泛检出,并对生物多样性构成巨大威胁.揭示野生动物的污染物暴露情况是评估环境污染对生物体的真实风险的基础.本数据库从310篇文献中收集了不同物种中多种化学污染物的含量.数据 ...
- 数据分享 | 中国第二次冰川编目
概述 冰川变化对气候变化非常敏感,因此历来被作为气候变化的指示器之一.最新的 IPCC 报告指出,过去几十年的气候变暖导致的全球冰川的快速消融对海平面上升有很大的贡献,其中山地冰川的贡献量达到了一半以 ...
- 利用NPP-VIIRS夜光数据识别中国收缩城市
来源:北京城市实验室BCL 本文多图,建议阅读5分钟. 我们比较了2013年至2016年可见光红外成像辐射计套件(NPP-VIIRS)数据的调整后的夜光强度,以准确地识别出整个中国正在收缩的城市. [ ...
- npp夜光数据介绍 viirs_利用NPP-VIIRS夜光数据识别中国收缩城市
来源:北京城市实验室BCL 本文多图,建议阅读5分钟. 我们比较了2013年至2016年可见光红外成像辐射计套件(NPP-VIIRS)数据的调整后的夜光强度,以准确地识别出整个中国正在收缩的城市. [ ...
- 【数据分享】2000-2021年全国各城市风速数据(逐日、逐月、逐年)
气象数据一直是一个价值较高的数据,它被广泛用于各个领域的研究当中.气象数据包括有气温.气压.相对湿度.降水.蒸发.风向风速.日照等多种指标.今天我们来分享下风速数据! 之前我们分享过2000--202 ...
- 中国地面气候资料日值数据集(V3.0)——数据说明与处理
一.数据说明 "中国地面气候资料日值数据集(V3.0)"包含了中国699个基准.基本气象站1951年1月以来本站气压.气温.降水量.蒸发量.相对湿度.风向风速.日照时数和0cm地温 ...
- 中国地面气候资料日值数据集(V3.0)数据说明以及数据处理
(1)<中国地面气候资料/日值数据集(V3.0)>数据说明 "<中国地面气候资料/日值数据集(V3.0)>"数据是按年-月存放的, 每年每月的所有站点数据每 ...
- 清华滴滴:出行数据透视中国城市空间发展报告!
来源:北京城市实验室BCL 本文多图,建议阅读10+分钟 清华与滴滴共同基于滴滴数据研究城市的开发.形态.功能.活动.活力乃至品质,完成了一份透视中国城市空间发展的报告. 清华大学研究生院和数据科学研 ...
- 中国90座城市建筑物屋顶矢量数据集
一.数据简介 该数据集包含中国90座城市(根据城市行政等级及区域分布综合选取,城市名录详见附件1)建筑物屋顶矢量数据.主要基于深度学习语义分割模型和多源遥感影像进行制作.首先,对原始影像进行预处理 ...
最新文章
- 程序员 35 岁就该退休了吗?
- inode 索引节点和软硬链接
- html 宽度和高度,如何检索HTML元素的实际宽度和高度?
- centos下yum安装mysql5.7_CentOS下yum安装mysql5.7
- linux dev_info,Linux命令集-xfs_info
- JavaScript实现返回数字的二进制表示中使用的位数bitLength算法(附完整源码)
- Ubuntu 16.04安装 sogou 遗留下的问题
- struts2配置中Action的name 和package的name和namespace作用
- ltspice 双脉冲_焊烟脉冲布袋式除尘器制作
- MT6757_MT6763处理器资料分享
- 修复ie浏览器主页被360篡改
- dell i5-3567禁用触摸板和Fn多媒体快捷键
- JPA语法大全 特别是JPA的不等于
- 致远oa系统unix 服务器,致远oa服务器设置
- SHA-512 逻辑
- 附录:入行 AI,选个脚踏实地的岗位
- SprintBoot:Post请求的参数多一个逗号的解决方法
- adb连接的2种方式,有线(USB线)和无线
- 基于部分卷积Pconv的图片修复
- LeetCode 558. 四叉树交集