前言

除了一些比较常规的网页,还存在一些结构更复杂的网页,通过分析学习,提升爬虫技术。

分析

想爬取广州交通信息网中关于重点区域路况的内容

通过F12查看页面元素,觉得可以实现抓取,结果实操时发现了问题

response = requests.get(url, headers=headers)
json = response.content.decode()

返回的信息中并没有任何有关数据,一查看才知道,网页用了iframe嵌套页面

由于iframe标签中含有src属性,再次对新url进行requests,还是以失败告终,只抓取到字段,而值却没有显示

没有数据,考虑可能是异步加载数据。点击F12,选择NetWork下的XHR,刷新页面

打开第一个页面,结果找到了数据

由此找到了最终爬取的页面网址(重点区域、重点通道的数据都在这里

代码

找到实际爬取的页面后,用json提取就能获取想要的数据了。

import requests
import jsondef parse_ajax_web():url = 'http://219.136.133.162/gztraffic/GetData.ashx?__r='#请求头信息headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0",'x-requested-with': 'XMLHttpRequest'}response = requests.get(url, headers=headers)myjson = json.loads(response.text)return myjson

注:网站每五分钟更新一次数据,需要全天数据的话就每隔五分钟抓取一次。

field_format = '{0:{4}^7}\t{1:{4}^4}\t{2:{4}^4}\t{3:{4}^4}'
value_format = '{0:{4}^7}\t{1:^9}\t{2:{4}^4}\t{3:^7}'

field_format = '{0:{5}^17}\t{1:{5}^4}\t{2:{5}^3}\t{3:{5}^4}\t{4:{5}^5}'
value_format = '{0:{5}^17}\t{1:{5}^4}\t{2:{5}^3}\t{3:{5}^7}\t{4:{5}^7}'

链接:python之中英文输出对齐

链接:获取高德地图路况信息⭐

其他:百度道路信息爬取

其他

XHR,全称为XMLHttpRequest,用于与服务器交互数据,是ajax功能实现所依赖的对象。XMLHttpRequest 对象提供了对 HTTP 协议的完全的访问,包括做出 POST 和 HEAD 请求以及普通的 GET 请求的能力。XMLHttpRequest 可以同步或异步地返回 Web 服务器的响应,并且能够以文本或者一个 DOM 文档的形式返回内容。

案例

爬虫练习案例:爬取天气并可视化

爬虫练习案例:使用代理IP

爬虫练习案例:爬取天气定时发送至微信/邮箱

爬虫练习案例:豆瓣电影Top250

爬虫练习案例:交通路况相关推荐

  1. 交通路况可视化_covid 19大流行期间空中交通的可视化

    交通路况可视化 介绍 (Introduction) Covid-19 pandemic has seriously impacted the world. In order to slow down ...

  2. php 爬虫_Scrapy 爬虫完整案例-基础篇

    1 Scrapy 爬虫完整案例-基础篇 1.1 Scrapy 爬虫案例一 Scrapy 爬虫案例:爬取腾讯网招聘信息 案例步骤: 第一步:创建项目. 在 dos下切换到目录 D:爬虫_scriptsc ...

  3. python爬虫案例-Python3爬虫三大案例实战分享

    课程名称: [温馨提示:1. 你可以在PC端浏览器或者微信收藏该页面,以方便你快速找到这个课程:2. 课程相关资料可在课程PC端公告查看下载:3.加入课程后,点(课时)列表即可观看视频 ] 课程须知: ...

  4. Python爬虫_案例分析(二)

    Python爬虫_案例分析(二) 一.电影天堂案例 import scrapy from scrapy_movie.items import ScrapyMovieItem class MvSpide ...

  5. 地图网站显示实时交通路况信息的原理

    1.名词解释:TMC:Traffic Message Channel[实时交通信息] 2.通过带GPS功能的手机以及其他移动设备收集位置信息及移动速度信息,通过大量的数据得到某个路段的交通情况,Goo ...

  6. python爬虫(案例)——豆瓣读书爬虫

    文章目录 要爬取的内容 一级页面(分类中图书的列表) 二级页面(每本书的详情页) 本案例中的防封ip小技巧 多用几个user-agent(随机抽取) 设置间隔时间 完整代码 本篇文章为豆瓣读书爬虫的案 ...

  7. 基础爬虫实战案例之获取游戏商品数据

    文章目录 前言 一.爬虫是什么? 二.爬虫实战案例 1.引入库 2.请求网页处理 3.生成访问链接 4.读入数据到mongodb 5.获得数据 6.加入多线程 总结 前言 在想获取网站的一些数据时,能 ...

  8. Python网络爬虫实战案例之:7000本电子书下载(2)

    一.前言 本文是<Python开发实战案例之网络爬虫>的第二部分:7000本电子书下载网络爬虫开发环境安装部署.配套视频课程详见网易云课堂 二.章节目录 (1)Python开发环境依赖 ( ...

  9. 【天善学院】自己动手,丰衣足食!Python3网络爬虫实战案例 附讲义与代码 6 A+所属分类:Python教程

    自己动手,丰衣足食!Python3网络爬虫实战案例 适宜人群: 萌新小白:我连爬虫也不知道是什么 入门菜鸟:我对一些爬虫的用法还不是很熟练 老司机:我想学习更高级的框架及分布式 从环境基础到进阶分布式 ...

  10. 数据挖掘r语言和python知乎_Hellobi Live |R语言爬虫实战案例分享:网易云课堂、知乎live、今日头条、B站视频...

    课程名称 R语言爬虫实战案例分享:网易云课堂.知乎live.今日头条.B站视频 网络数据抓取是数据科学中获取数据中的重要途径,但是一直以来受制于高门槛,都是专业程序员的专属技能.直到R语言和Pytho ...

最新文章

  1. java 音乐api接口_关于网易云音乐爬虫的api接口?
  2. hdu 2553 N皇后问题(深度递归搜索)
  3. matlab用lism求零输入响应,信号与系统matlab课后作业_北京交通大学讲解.docx
  4. 查找和排序的一点浅显认识
  5. EntLib.com Forum / YAF 开源论坛--源码的目录结构(对分析代码很有帮助)
  6. 【硬核干货】如何高效找到优质编程项目?
  7. 《技术管理之巅》读书笔记
  8. 使用Docker保护软件供应链安全
  9. c语言扩展欧几里得算法编程实现,C语言实现欧几里得算法与扩展欧几里得算法.doc...
  10. 思岚A1激光雷达调试
  11. 机器学习(8): 逻辑回归算法 小结及实验
  12. python图片内容长度识别_python 图片中的表格识别
  13. python取字母以及数字随机数
  14. Linux服务器云锁安装步骤
  15. C#几种读取文件的方式
  16. C++入门编程之成语接龙
  17. python给excel排序_使用Python对Excel中的列数据进行排序
  18. python输出棱形及对称三角
  19. 我眼中的王石(转 目光呆滞的润土)
  20. 重开排行榜,真实2克拉黑钻拍卖,你还愿意给网易星球一次机会吗

热门文章

  1. 华为云Hadoop与Spark集群环境搭建
  2. 科技传播杂志科技传播杂志社科技传播编辑部2022年第9期目录
  3. 服务器网卡游戏性能,关于服务器网卡的选择 有同学虚拟盘速度慢 进游戏速度慢的请看 - 系统+虚拟盘 - 顺网科......
  4. 在PHP中用sleep导致诡异事件
  5. 123456789 中间随机添加 “加减符号” 进行运算结果等于100
  6. jdk1.8中的永久代和元空间
  7. 智能卡卡发卡流程(收藏1)
  8. java里偶数奇数怎么表示_【java奇数偶数】
  9. 善于学习——总结经验
  10. Tomcat文件包含漏洞:CNVD-2020-10487(简介/验证/利用/修复)