爬虫练习案例:交通路况
前言
除了一些比较常规的网页,还存在一些结构更复杂的网页,通过分析学习,提升爬虫技术。
分析
想爬取广州交通信息网中关于重点区域路况的内容
通过F12查看页面元素,觉得可以实现抓取,结果实操时发现了问题
response = requests.get(url, headers=headers)
json = response.content.decode()
返回的信息中并没有任何有关数据,一查看才知道,网页用了iframe嵌套页面
由于iframe标签中含有src属性,再次对新url进行requests,还是以失败告终,只抓取到字段,而值却没有显示
没有数据,考虑可能是异步加载数据。点击F12,选择NetWork下的XHR,刷新页面
打开第一个页面,结果找到了数据
由此找到了最终爬取的页面网址(重点区域、重点通道的数据都在这里
代码
找到实际爬取的页面后,用json提取就能获取想要的数据了。
import requests
import jsondef parse_ajax_web():url = 'http://219.136.133.162/gztraffic/GetData.ashx?__r='#请求头信息headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0",'x-requested-with': 'XMLHttpRequest'}response = requests.get(url, headers=headers)myjson = json.loads(response.text)return myjson
注:网站每五分钟更新一次数据,需要全天数据的话就每隔五分钟抓取一次。
field_format = '{0:{4}^7}\t{1:{4}^4}\t{2:{4}^4}\t{3:{4}^4}'
value_format = '{0:{4}^7}\t{1:^9}\t{2:{4}^4}\t{3:^7}'
field_format = '{0:{5}^17}\t{1:{5}^4}\t{2:{5}^3}\t{3:{5}^4}\t{4:{5}^5}'
value_format = '{0:{5}^17}\t{1:{5}^4}\t{2:{5}^3}\t{3:{5}^7}\t{4:{5}^7}'
链接:python之中英文输出对齐
链接:获取高德地图路况信息⭐
其他:百度道路信息爬取
其他
XHR,全称为XMLHttpRequest,用于与服务器交互数据,是ajax功能实现所依赖的对象。XMLHttpRequest 对象提供了对 HTTP 协议的完全的访问,包括做出 POST 和 HEAD 请求以及普通的 GET 请求的能力。XMLHttpRequest 可以同步或异步地返回 Web 服务器的响应,并且能够以文本或者一个 DOM 文档的形式返回内容。
案例
爬虫练习案例:爬取天气并可视化
爬虫练习案例:使用代理IP
爬虫练习案例:爬取天气定时发送至微信/邮箱
爬虫练习案例:豆瓣电影Top250
爬虫练习案例:交通路况相关推荐
- 交通路况可视化_covid 19大流行期间空中交通的可视化
交通路况可视化 介绍 (Introduction) Covid-19 pandemic has seriously impacted the world. In order to slow down ...
- php 爬虫_Scrapy 爬虫完整案例-基础篇
1 Scrapy 爬虫完整案例-基础篇 1.1 Scrapy 爬虫案例一 Scrapy 爬虫案例:爬取腾讯网招聘信息 案例步骤: 第一步:创建项目. 在 dos下切换到目录 D:爬虫_scriptsc ...
- python爬虫案例-Python3爬虫三大案例实战分享
课程名称: [温馨提示:1. 你可以在PC端浏览器或者微信收藏该页面,以方便你快速找到这个课程:2. 课程相关资料可在课程PC端公告查看下载:3.加入课程后,点(课时)列表即可观看视频 ] 课程须知: ...
- Python爬虫_案例分析(二)
Python爬虫_案例分析(二) 一.电影天堂案例 import scrapy from scrapy_movie.items import ScrapyMovieItem class MvSpide ...
- 地图网站显示实时交通路况信息的原理
1.名词解释:TMC:Traffic Message Channel[实时交通信息] 2.通过带GPS功能的手机以及其他移动设备收集位置信息及移动速度信息,通过大量的数据得到某个路段的交通情况,Goo ...
- python爬虫(案例)——豆瓣读书爬虫
文章目录 要爬取的内容 一级页面(分类中图书的列表) 二级页面(每本书的详情页) 本案例中的防封ip小技巧 多用几个user-agent(随机抽取) 设置间隔时间 完整代码 本篇文章为豆瓣读书爬虫的案 ...
- 基础爬虫实战案例之获取游戏商品数据
文章目录 前言 一.爬虫是什么? 二.爬虫实战案例 1.引入库 2.请求网页处理 3.生成访问链接 4.读入数据到mongodb 5.获得数据 6.加入多线程 总结 前言 在想获取网站的一些数据时,能 ...
- Python网络爬虫实战案例之:7000本电子书下载(2)
一.前言 本文是<Python开发实战案例之网络爬虫>的第二部分:7000本电子书下载网络爬虫开发环境安装部署.配套视频课程详见网易云课堂 二.章节目录 (1)Python开发环境依赖 ( ...
- 【天善学院】自己动手,丰衣足食!Python3网络爬虫实战案例 附讲义与代码 6 A+所属分类:Python教程
自己动手,丰衣足食!Python3网络爬虫实战案例 适宜人群: 萌新小白:我连爬虫也不知道是什么 入门菜鸟:我对一些爬虫的用法还不是很熟练 老司机:我想学习更高级的框架及分布式 从环境基础到进阶分布式 ...
- 数据挖掘r语言和python知乎_Hellobi Live |R语言爬虫实战案例分享:网易云课堂、知乎live、今日头条、B站视频...
课程名称 R语言爬虫实战案例分享:网易云课堂.知乎live.今日头条.B站视频 网络数据抓取是数据科学中获取数据中的重要途径,但是一直以来受制于高门槛,都是专业程序员的专属技能.直到R语言和Pytho ...
最新文章
- java 音乐api接口_关于网易云音乐爬虫的api接口?
- hdu 2553 N皇后问题(深度递归搜索)
- matlab用lism求零输入响应,信号与系统matlab课后作业_北京交通大学讲解.docx
- 查找和排序的一点浅显认识
- EntLib.com Forum / YAF 开源论坛--源码的目录结构(对分析代码很有帮助)
- 【硬核干货】如何高效找到优质编程项目?
- 《技术管理之巅》读书笔记
- 使用Docker保护软件供应链安全
- c语言扩展欧几里得算法编程实现,C语言实现欧几里得算法与扩展欧几里得算法.doc...
- 思岚A1激光雷达调试
- 机器学习(8): 逻辑回归算法 小结及实验
- python图片内容长度识别_python 图片中的表格识别
- python取字母以及数字随机数
- Linux服务器云锁安装步骤
- C#几种读取文件的方式
- C++入门编程之成语接龙
- python给excel排序_使用Python对Excel中的列数据进行排序
- python输出棱形及对称三角
- 我眼中的王石(转 目光呆滞的润土)
- 重开排行榜,真实2克拉黑钻拍卖,你还愿意给网易星球一次机会吗
热门文章
- 华为云Hadoop与Spark集群环境搭建
- 科技传播杂志科技传播杂志社科技传播编辑部2022年第9期目录
- 服务器网卡游戏性能,关于服务器网卡的选择 有同学虚拟盘速度慢 进游戏速度慢的请看 - 系统+虚拟盘 - 顺网科......
- 在PHP中用sleep导致诡异事件
- 123456789 中间随机添加 “加减符号” 进行运算结果等于100
- jdk1.8中的永久代和元空间
- 智能卡卡发卡流程(收藏1)
- java里偶数奇数怎么表示_【java奇数偶数】
- 善于学习——总结经验
- Tomcat文件包含漏洞:CNVD-2020-10487(简介/验证/利用/修复)