目标地址 http://www.gzjt.gov.cn/gzjt/tcc/list_tt.shtml

上面url是广州交通的地址。朋友想要我帮忙去抓到所有的广州停车场所在的详细地址。

一开始去查这个网页的时候,感觉还是很迷惑的。因为是动态网页,所以我得先捕捉漏洞。然后,通过漏洞去抓到对应的数据有关的地址。

经过大概十几分钟,比较幸运,找到了对应的漏洞。(个人猜测,可能是因为是政府网站,所以,防护的效果虽然也是有,但是并不那么高深。

然后,我查了下,总共只有318页的数据,也就没有做多协程,就直接开了单线程,然后直接一路开过去就好了~
用时大概就30秒?,也还是能接受的~
(有个不太理解,就是不清楚,这个是不是限制了周围所有的)


代码运行效果

就是会在代码所在目录去找,看看有没有名为Data的文件夹。没有就创建一个。
之后,再根据特定捕捉到的漏洞,进行爬虫,把对应的信息写入这个文件夹中,然后存储为json格式的文件。并转成可以看中文的格式的编码。这样让我的Teamates,就算不懂代码,也可以直接点开这个文件来看数据。

代码如下

import requests
import os
import jsondef getAllJson(Session, data, headers):url = 'http://219.136.133.163:8000/Pages/Commonpage/AsyGetData.asmx/GetParkList'res = Session.post(url, data=data, headers=headers)res.encoding = 'utf-8'with open('./Data/' + data['cp'] + '.json', 'w') as f:json.dump(res.json(), f, ensure_ascii=False)if __name__ == '__main__':headers = {'X-Requested-With': 'XMLHttpRequest','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}pageSession = requests.Session()url = 'http://219.136.133.163:8000/Pages/Commonpage/AsyGetData.asmx/GetParkList'pageSession.get(url, headers=headers)data = {'cp': '1','ps': '10','kw': '','lon': 'undefined','lat': 'undefined','type': 'undefined'}if not os.path.exists('./Data'):os.mkdir('./Data')for i in range(318):data['cp'] = str(i + 1)getAllJson(pageSession, data, headers)

爬取广州所有停车场数据(Python)相关推荐

  1. 爬取广州所有停车场数据(Python)(并行加速版本)

    之前做过这个的单进程版本.这次使用多进程来实现~ 爬取广州所有停车场数据(Python) 大家可以对比着看一下,在原来的单进程爬虫的基础进行改进而得到的产品. import requests impo ...

  2. python爬虫豆瓣电影评价_使用爬虫爬取豆瓣电影影评数据Python版

    在 使用爬虫爬取豆瓣电影影评数据Java版 一文中已详细讲解了爬虫的实现细节,本篇仅为展示Python版本爬虫实现,所以直接上代码 完整代码 爬虫主程序 # 爬虫启动入口 from C02.data ...

  3. python 携程_python爬取携程和蚂蜂窝的景点评论数据\python爬取携程评论数据\python旅游网站评论数...

    本人长期出售超大量微博数据.旅游网站评论数据,并提供各种指定数据爬取服务,Message to YuboonaZhang@Yahoo.com.同时欢迎加入社交媒体数据交流群:99918768 前言 为 ...

  4. Python爬虫新手入门教学(十四):爬取有声小说网站数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. Python爬虫.数据分析.网站开发等案例教程视频免费在线观看 https://space. ...

  5. python爬取豆瓣电影信息数据

    题外话+ 大家好啊,最近自己在做一个属于自己的博客网站(准备辞职回家养老了,明年再战)在家里 琐事也很多, 加上自己 一回到家就懒了(主要是家里冷啊! 广东十几度,老家几度,躲在被窝瑟瑟发抖,) 由于 ...

  6. python爬取的信息条数比页面显示多_Python爬取分析北京二手房数据?数据结果真的太吓人了...

    有个朋友联系我,想统计一下北京二手房的相关的数据,而自己用Excel统计工作量太过于繁杂,问我用Python该如何实现. 构造要访问的URL 这里,我试着抓取北京海淀区二手房的相关数据.首先,是观察一 ...

  7. Python+BI爬取3000条车厘子数据,发现了这些秘密

    听说最近车厘子的价格突然猛跌,之前很多人梦寐以求的"车厘子自由",现在都能实现了.其实车厘子的价格下降,主要原因是进口货运成本的大大降低,为了找到车厘子最佳的购买方式,我决定用py ...

  8. python实战|python爬取58同城租房数据并以Excel文件格式保存到本地

    python实战|python爬取58同城租房数据并以Excel文件格式保存到本地 一.分析目标网站url 目标网站:https://cq.58.com/minsuduanzu/ 让我们看看网站长啥样 ...

  9. 使用Python爬取分析政府采购网数据

    好久没写博客了,一直觉得之前写的都没啥技术性,这次分享个最近觉得很值得记录的一次操作吧~.         Leader临时分配给我个任务,要我爬取下政府采购网近一个月公开招标中二三甲医院的数据,这一 ...

最新文章

  1. 航天智慧物流创意组-技术培训
  2. 【深度学习】吴恩达网易公开课练习(class1 week3)
  3. 【测试】测试用例8大法
  4. SQL join中on与where区别
  5. c++对象回收问题_从垃圾回收解开Golang内存管理的面纱之三垃圾回收
  6. 【Antlr】cannot create implicit token for string literal in non-combined grammar xx
  7. [转载] python list中append()与extend()用法
  8. 前端实践(3)——图像幻灯片
  9. 2022最新软件库iApp源码+简约唯美/对接hybbs
  10. 一个例子搞懂单纯形法大M法和两阶段法
  11. git创建版本库并提交文件
  12. 【Web动画】SVG 线条动画入门
  13. Photoshop文字之——制作晶莹剔透胶体特效
  14. 制作yocto的recipe的补丁的方法
  15. 用python抢火车票
  16. Everything不显示.lnk文件
  17. 3月18日云栖精选夜读 | 开发者必看!探秘阿里云Hi购季开发者分会场:海量学习资源0元起!... 1
  18. 数据科学 5.1 数据处理(概念)
  19. App Clips简介以及demo演示
  20. Go语言Windows系统开发环境配置

热门文章

  1. 洞悉物联网发展1000问之ZigbeePRO技术会卷土重来占领物联网吗
  2. linux的Nginx安装、默认虚拟主机、用户认证、域名重定向配置介绍
  3. 北航算法作业一 约瑟夫环问题
  4. 利用iframe实现ajax 跨域通信的解决方案
  5. C++中一个容易被忽视的名字查找规则
  6. 【正一专栏】2018年欧冠八强猜想
  7. 【Python学习系列十五】pandas库DataFrame行列操作使用方法
  8. 编译microwindow(nano-X) 及flnx-0.18
  9. 触发器——创建||更新||删除||查看
  10. count/distinct/group by的用法总结