昨天发完预告片之后,很多同学都在关心虾神,因为:

大家担心,虾神写爬虫,写着写着就进去了……不过所幸的是,我国的法制进程一直在前进,对于爬虫的相关,在法律也做出了如下规定,下面给讲讲爬虫时候需要注意的一些法律问题,因为要是不小心,说不定真的就进去了。

写爬虫和用爬虫的时候,需要注意下面几个问题:

1、爬取的内容,需要经过内容拥有者的同意,一般来说,网站会在根目录下放置robots.txt协议文件,这个文件规定了该网站下哪些东西不允许爬取,比如下面就是百度的robots:

可以看见,他允许百度谷歌等用户,但也规定了一些url后缀不允许爬取。

而且,爬虫判的那是相当重的,比如爬虫爬取内容如果涉及“行踪轨迹信息、通信信息、征信信息、财产信息”,未经允许爬超50条,就可以判3年;淘宝交易记录,未经允许爬取超500条,也可以判3年;运营商网站通话记录,未经允许爬超过500条,可以判7年

所以,爬之前,需要先关注一下这个文档,否则真的牢饭吃到饱……

当然,还有很多网站没有robots协议的(或者robots无法访问的),目前法律还没有明确规定。按法理来说,法无禁止即可为,那么理论上就是全面开放的,比如我们很多政府网站都是,就像下面这个虾神最喜欢的国家统计局官网:

(第一次觉得,404是这么可爱~)

2、爬的时候,注意别太贪婪,一般来说,最好不要用那些多线程的框架来疯狂爬取,这样会被认为是在攻击对方的网站,这个就是不是爬虫的问题了,而刑法第286条破坏计算机信息系统罪的问题了。所以爬时候可以考虑一些技术手段,比如线程延时错峰等手段,技术问题有空聊。

3、不要随意去爬有数字版权的东西,比如视频、音乐、图片等,这种有法律保障的东西,很危险。

所以,在用爬虫的时候,切记切记,小心最大。

面说完了爬虫的法律问题,下面放出虾神爬了一整天的全美机场数据,爬虫的代码就不放了,大家自己去体会:

数据来源:https://www.globalair.com/

数据量:19619条,如下:

各字段内容如下:

  • State 州

  • Airport Code 机场编码

  • Airport Name 机场名称

  • Approach 着陆条件

  • City 所在城市

  • type 机场类型(机场、直升机场、热气球港,水上机场,短场起降机场)

  • Latitude 纬度(wgs84)

  • Longitude 经度(wgs84)

  • Elevation 高程(英尺)

  • Variation 磁差

  • From City 最近城市的距离

  • Customs Landing Rights 海关登陆权

  • Sectional Chart 分区航图

  • Ownership 所属类型(公共 & 私有)

  • Owner 所有者

  • Address 机场地址

  • Phone 联系电话

  • Manager 管理(联系)人

  • ManagerAddress 管理人联系地址

  • ManagerPhone 管理者联系电话

数据全球分布如下:包括美国本土50个州和8个海外领地

做个简单的数据探索——以下可视化代码,在已经放在数据下载的地址里面。

先看机场的所属类型:

美国的机场,有75%+属于私有类型的机场,不对公众开放,如果要使用,需要先提出申请,而且很多私有小机场,非常的简陋,比如某些小机场,只有个跑道和停机坪,连塔台都没有的:

看看机场的分类,美国的航空港分为6类,分别是:机场、直升机场、热气球港,水上机场,短场起降机场和其他类型,主要以通用机场和直升机机场为主,占到96%

比如这就是美国的一个直升机机场——那是更省地方了:

从着陆条件来看,拥有ILT(instrument landing system 仪表着陆系统)和Instrument (仪表)的机场数量,只有不到3%,也就是大部分机场都是简陋的机场:

只有1.5%的机场,有海关入境处(就是我国称之为的“国际机场”):

各地机场分布的数量如下:

50个州+8个海外领地,共计58个,其中德州(这里自然不是山东那个德州)的机场最多,高达2027个……牛仔们有足够的农场来建机场,果然很德州

而且美国有13%的机场,在海外领地:

最后放出昨天画了一半没有画完的地图:(限于水平问题,实际上画完也一样的丑)

最后放出数据下载地址,下载地址获取如下:

1、关注虾神公众号:虾神daxialu

然后在公众号发送消息“美国机场”,即可获得下载地址:

PS:这个提醒,对于虾神的铁粉们来说是多余的,因为老铁们自然知道去哪里扒拉虾神提供的各种资料数据,主要是新粉丝和在其他渠道看见这篇文章的同学,可以通过关注公众号来进行获取。

最后还是要提醒一句:爬虫写得好,牢饭吃到饱,千万注意,小心小心再小心

爬虫普法与美国机场分布数据(附全部数据下载地址)相关推荐

  1. OpenCV4机器学习算法原理与编程实战(附部分模型下载地址)

    一直想找本书,能在机器学习复杂的算法原理和高效的编程实战之间达到合适的平衡:让感兴趣的同学拿到就有能用的代码,还有基本原理的介绍,因为了解原理才知道什么时候用什么算法最合适,以及如何调整参数. 一直没 ...

  2. BIGEMAP离线数据包网盘下载地址:中国高清地图数据,中国高清谷歌数据 密码:1111

    BIGEMAP离线数据包网盘下载地址:中国高清地图数据,中国高清谷歌数据     密码:1111

  3. Win10 .Net framework 3.5离线安装包(附安装方法)下载地址

    Win10 .Net framework 3.5离线安装包(附安装方法)下载地址 很多办公环境是没有外网的,而Win10又不自带.net 3.5,导致很多运行在.net 2.0\3.0\3.5的程序无 ...

  4. 走遍美国MP4 第 01 - 78集迅雷下载地址:

    走遍美国MP4 第 01 - 78集迅雷下载地址(至2013-10-16有效): thunder://QUFodHRwOi8vczEubXA0LmRhdGEuYTY3LmNvbS9tcDQvMjAxM ...

  5. Aspose Cells 控件如何实现数据过滤(附代码和下载地址)

    Aspose Cells 是一款操作和处理以及转换Excel文件的类库,支持.NET和JAVA版,几乎所有Excel能实现的功能,Aspose Cells都可以实现,在Excel中经常会用到数据过滤, ...

  6. Java大数据平台开发 学习笔记(71) —— Kafka 原理(附 Kafka 百度云盘下载地址)

    一.Kafka介绍 Kafka是由LinkedIn开发的一个分布式的消息系统,底层使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Cloudera.Apac ...

  7. 手把手教你搭建AI开发环境 !(附代码、下载地址)

    来源:虎贲智能机器 本文长度为1000字,建议阅读5分钟 本文为你介绍基于ubuntu16 Python3 tensorflow的人工智能开发环境的搭建. 人最大的长处就是有厉害的大脑.电脑.手机等都 ...

  8. Genymotion配置及使用教程(最新最完整版附各部分下载地址)最快模拟器

    2019独角兽企业重金招聘Python工程师标准>>> 早都听说了Genymotion好用,今天才抽空把他配置出来,过程算是很曲折啊,不过好在完成了.而且我发现网上的教程都不怎么全, ...

  9. C#开发的高性能EXCEL导入、导出工具DataPie(支持MSSQL、ORACLE、ACCESS,附源码下载地址)...

    作 为财务数据核算人员,面对大量的业务与财务数据,借助于传统的EXCEL表格,已经力不从心.最近几个月,利用周末及下班的空闲时间,写了一个数据库导入 导出工具,以方便业务逻辑密集型的数据处理.目前,D ...

最新文章

  1. 高并发系统三大利器之限流
  2. 【BZOJ】2675: Bomb
  3. (管道| / 重定向 / xargs)/find 与xargs结合使用/vi,grep,sed,awk(支持正则表达式的工具程序)
  4. Boost.MultiIndex 使用序列索引的示例
  5. 【数据分析】线性回归与逻辑回归
  6. orcle10忘记密码
  7. 深入vuex原理(上)
  8. TreeView节点的演练 c# 1614840318
  9. linux驱动开发框架
  10. windows 下 YII2 配置 memcache
  11. python 文档字符串标准_Spyder docstrings文档字符串的标准
  12. 破解 语序点选验证码
  13. json数组对象转js数组对象
  14. unity技美31——Curvy Splines寻路插件绘制赛道,并且生成OBJ教程
  15. Unity中通过ButtonClicked更换GameOgject纹理图片
  16. PyQt5最详细pyrcc5配置+样式使用
  17. 8.称呼/no/not/meet/nice/of/倒装句/介绍他人的方式/see
  18. TP-LINK路由器WR703N刷openwrt固件挂载USB摄像头(上)
  19. Android系统10 RK3399 init进程启动(十八) isLoggable日志级别输出控制
  20. 【nodeJS】从nodejs原生的博客网站搭建到 koa框架实现个人博客网站搭建

热门文章

  1. mysql密码修改失败问题解决
  2. 【笔记】Ueditor1_4_3_3-utf8-jsp使用步骤
  3. 【晶振专题】案例:晶振供应商提供的晶振匹配测试报告能看出什么?
  4. * 使用VC2005的感受 , 写给在彷徨Vc6.0 和 VC2005 之间的XDJM *
  5. DEL复式账本--开启区块链4.0时代
  6. win7 x64双机联调
  7. JZ11 旋转数组的最小数字
  8. OpenCV学习笔记五:直方图
  9. python去除图片复杂背景_[OpenCV-Python] OpenCV 中的图像处理 部分 IV (五)
  10. 学软件技术计算机二级考什么,计算机二级考试科目有哪些