地名地址楼栋号爬取工具

  • 基于高德/百度的地名地址爬取工具
    • 1、 对于地名地址的项目中楼栋号处理
    • 2、 对于地名地址的获取
    • 上图

基于高德/百度的地名地址爬取工具

利用两者api进行格网式分类别进行数据爬取

1、 对于地名地址的项目中楼栋号处理

(1)甲方给与的建筑物矢量面进行arcgis转点,然后要求落在建筑物面内。
(2)通过获得的点的经纬度坐标采用高德/百度的POI工具,通过逐步扩大检索半径的方式,获得楼栋号。
楼栋所在小区的街道和街道号,由于小区门沿街多个,目前采用人工网络检索和实地核实的方式。

2、 对于地名地址的获取

(1)由于甲方提供的数据不够细致和准确,因此采用全面网络爬取的形式获取数据。
(2)对于这些数据的获取,采用网格化分类别批量获取形式,首先对行政区划的shp进行渔网化,间隔在经度0.02,纬度0.03度划分,生成的网格为矩形,根据shp删除掉无用的格网,利用下式求得左下右上坐标。
ArcGIS中求多边形的四至点可以直接根据字段计算器,利用Python语句直接求得
minX = !shape.extent.xmin!(输入时不用等号“=”前面的minX或MaxX等,直接用两个叹号和中间的。前面也不要有空格)
maxX= !shape.extent.xmax!
minY= !shape.extent.ymin!
maxY = !shape.extent.ymax!

(3)利用求得的坐标进行转换、矩形化检索poi,百度采取的是左下右上坐标形成矩形,高德则采用左上右下坐标。模板中采用左下右上坐标的记录方式。
(4)对于实际操作中,最好是对获取的网格进行分批次进行。选择poi类型中,高德的poi标准更为详细,更为实用,都有专门针对楼栋号的分类。选择poi分类时尽量不要全选分类,因为高德和百度都对数据进行了保护,高德一次返回800+条则表示超限,未全部返回,百度则是最大400条,而且百度分页时total值乱七八糟。
(5)通过经验分析,将高德的Poi分类分成三阶:
A第一阶:此四项分类数据量大,建议勾选一项进行爬取

B第二阶:此八项可两两勾选进行爬取

C第二阶:此七项数据量较少,可以全选七项爬取。

百度POI暂未分析,异曲同工吧。
对于爬取到的数据,大多没有清晰街道和街道号,因此需要在记录数据的时候进行一次根据经纬度/地名的逆地理编码/地理编码,获取街道和街道号,尽管如此仍需要进行外业审核。
注意:地名地址的爬取,由于数据量大,数据需要外业和内业处理的也比较多。

上图

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200506095828858.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl8zOTgyMzM2Nw==,size_16,color_FFFFFF,t_70#pic_center

开发者:cookie

地名地址楼栋号爬取工具相关推荐

  1. python写图片爬取软件_python制作微博图片爬取工具

    有小半个月没有发博客了,因为一直在研究python的GUI,买了一本书学习了一些基础,用我所学做了我的第一款GUI--微博图片爬取工具.本软件源代码已经放在了博客中,另外软件已经打包好上传到网盘中以供 ...

  2. python3GUI--微博图片爬取工具(附源码)

    文章目录 一.准备工作 二.预览 1.启动 2.运行中 3.结果 三.设计流程 1.总体设计 2.详细设计 四.源代码 五.总结说明 有小半个月没有发博客了,因为一直在研究python的GUI,买了一 ...

  3. 打造轻量级可视化数据爬取工具-菩提

    作者:jiaqiangwang,腾讯 IEG 后台开发工程师 背景 在大数据及机器学习日益火爆的今天,数据作为基石发挥了至关重要的作用.网页内容爬取作为数据的一个重要补充来源,数据爬取开发成了一个必不 ...

  4. python爬取软件内数据_各种数据爬取工具爬虫合集整理

    却道天凉好个秋~ 不用编程敲代码的爬取数据的工具合集,简单上手易用的爬虫脚本工具软件汇总 1.工具软件类: Microsoft Excel excel也可以爬一些规整的表格数据等,没想到吧! 八爪鱼 ...

  5. 8个零代码数据爬取工具,不会Python也能轻松爬数!(附教程)

    前天给大家整理了免费数据源网站合集,看大家的反馈很积极,有粉丝留言说,她还想要爬取一些网页的数据进行分析,不知道该如何下手 目前的用的比较多数据爬取方法是用python爬虫,这两年python很火,网 ...

  6. 爬取去哪儿网酒店信息,再利用百度API将酒店地址的经纬度爬取!

    Python3 的 selenium库可以模拟打开页面,获得加载完成的页面信息,一些基本用法,请自行度娘,就不再赘述了 1.将某城市的所有酒店链接爬取下来. 先打开两个酒店页面 ** https:// ...

  7. 网站爬取工具_浅析阻碍网站内容被蜘蛛抓取的原因有哪些?

    众所周知,在搜索引擎中存在的蜘蛛其实就是一段代码,这段代码通过在各个网站爬取,以便于网站内容能够被搜索引擎收录.不过一般蜘蛛爬取是按照一定规则进行的,如果网站中出现了一些爬取障碍,那么蜘蛛爬取就会被打 ...

  8. 网站爬取工具_Python项目:结合Django和爬虫开发小说网站,免安装,无广告

    前言 很多喜欢看小说的小伙伴都是是两袖清风的学生党,沉迷小说,不能自拔.奈何囊中甚是羞涩,没有money去看正版小说,但是往往这些免费的小说网站或者小说软件,随之而来的是大量的广告. Python嘛, ...

  9. 强制下载钉钉直播回放,简单易 附爬取工具

    ** 强制下载钉钉回放 ** 一.Fiddler 抓包教程 1.安装 Fiddler 下载地址:点击下载 2.设置 Fiddler 捕捉 HTTPS 流量 (1)选择工具----选项 (2)点HTTP ...

最新文章

  1. 程序员抱怨老婆追王一博入魔,长期被冷落想离婚
  2. 物联网ZigBee3.0协议E18-2G4U04B模块无线数据抓包调试的方法
  3. 网络流(最大流) HDU 1565 方格取数(1) HDU 1569 方格取数(2)
  4. Devpress.XtraGrid.GridControl.GridView属性
  5. 大数据之-Hadoop之HDFS的API操作_配置参数的优先级说明_以设置hdfs文件副本数量参数为案例---大数据之hadoop工作笔记0057
  6. qpushbutton里面的文字怎么换行_ipad读PDF必备,OCR局部识别文字并快速提取,免费的buff你要不要?...
  7. 图像直方图及直方图均衡总结(一)经典方法(附matlab和opencv端算法实现)
  8. 使用ping方法,依据TTL值,探测对方主机操作系统
  9. python列表平均数怎么求_Python 中 输入一个数值列表,并求出其平均值
  10. redis——jedis的使用以及springboot整合redis
  11. 卡内基梅隆计算机金融,大神offer|恭喜四位再来人学员斩获卡内基梅隆大学-计算金融硕士...
  12. chromium下载历史版本错误
  13. Scheme 语言 第一次的感触!
  14. wireguard如何配置----服务端
  15. 《计算机绘图》期末试卷d,计算机绘图试卷
  16. forEach方法如何跳出循环
  17. 谷歌html怎么打字,Type Fu:练习正确的打字
  18. MMO大型多人在线游戏服务器架构简述
  19. 最少的钱买最合适的房 两类房80后置业最合适
  20. 15.爬虫之前奏部分

热门文章

  1. 关于计算机发展经历了四个时代,划分的依据以及应用领域.
  2. 后端传验证码图片前端ajax怎么显示图片
  3. AI创业,是商机还是泡沫
  4. moxa mscomm
  5. MFC InvalidateRect和Invalidate
  6. Unity平台模拟自动挡驾驶汽车
  7. android sdk工具之MonkeyRunner (实例)_小兵兵同学_新浪博客
  8. 熊啸锋:什么是大数据网络营销,它的好处和原理以及实战运用
  9. vs2010中写日志文件的几种方法
  10. java的swing在哪里_java_swing教程视频哪里有?选择很重要