Python 爬虫-爬取阿里旅行特价机票信息(1)
本着对于出游的向往,但又苦于没有找到合适的机票价格。于是,萌生了去获取相关网站的机票信息。一开始是想去获取全站机票信息,但是那个工作量太大,而且机票价格在一天时间里经常变更,给数据的爬取增加了极大的难度——拿到的数据都可以建个一样的机票价格查询网站了。最终决定只爬取关键部分的信息,其余的不做处理。
目前的大致功能如下:
- 获取特价机票信息
- 选择出行的目的地
- 根据目的地,输出相应省份的特价机票信息
多了上面的第三点的原因,是因为要去的目的地可能没有特价机票,但是同省的其他地区有。
目标网站选取
这里选择了阿里旅行的国内机票网页。
特价机票的数据就在下面等着我们了,Go Go Go!
在特价航班那里,我们看到可以选择到多少天的航班。随意切换时间后,发现这个特价机票的数据在重新加载后并没有刷新页面,初步断定为ajax的异步加载。
## 数据来源定位 ##
打开 浏览器的“开发者工具”,我们对接下来的请求进行抓取。切换到Network标签,清空当前抓取到的Network收发请求,如下
这时,我们把航班的时间从“7天内航班”修改到“14天内航班”,确认后在Network下抓取到了6条数据,其中前4条是选择的时候自动出现,后面两条(红色框里所见)是选择完后,在重新加载“特价机票”页面的时候出现。我们接下来的工作重点就在这里。
红色框里的第一条,点开后发现没什么内容,看起来像是一些规定接下来接收数据时的格式。
接下来,我们看红框里的第二条,看地址,那么点意思,然后再“Headers”里,是属于“Get”请求,那么它到底是“Get”到了什么呢?
点开地址后,我们看到一大堆JSON格式的数据,仔细看看,是不是和特价机票里面的信息很像呢。其中有一段如下打头的数据”\u897f”,这个是按照Unicode方式编码,转码后就可以显示成中文。
arrName":"\u897f\u5b89"
## 数据解析 ##
接下来要做的内容就是解析这一堆数据。使用的是Python。
未完待续——
Python 爬虫-爬取阿里旅行特价机票信息(1)相关推荐
- 爬虫07 爬取阿里旅行特价机票
https://sjipiao.alitrip.com/cheap_flight_search.htm?tripType=0&depCityName=&depCity=&arr ...
- python爬虫爬取当当网的商品信息
python爬虫爬取当当网的商品信息 一.环境搭建 二.简介 三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面 书籍商品html页面解析 其他商品html页面解析 四.代码实现 ...
- python爬虫爬取大众点评店铺简介信息
python爬虫爬取大众点评店铺简介信息 写作目的: 爬取目标 大众点评的保护机制 应对方法 还存在的问题 写作目的: 今天帮朋友一个忙,要爬取一些大众点评上的数据.结果发现大众点评的防爬机制还挺多的 ...
- 使用python+selenium爬取同城旅游网机票信息
最近使用python+selenium爬取了同城旅游网机票信息 相关主要代码如下,通过模拟人为操作,拿下了这个机票列表的html代码,然后就可以使用xpath或者re等方式从中提取需要的字段信息了. ...
- Python爬虫爬取智联招聘职位信息
目的:输入要爬取的职位名称,五个意向城市,爬取智联招聘上的该信息,并打印进表格中 #coding:utf-8 import urllib2 import re import xlwtclass ZLZ ...
- 【Python爬虫案例学习20】Python爬虫爬取智联招聘职位信息
目的:输入要爬取的职位名称,五个意向城市,爬取智联招聘上的该信息,并打印进表格中 ####基本环境配置: Python版本:2.7 开发工具:pycharm 系统:win10 ####相关模块: im ...
- python爬虫爬取19楼相亲女信息
最近在温习python爬虫知识,写了个简单的爬虫. 能爬取500页相亲女的信息 #coding=utf8 import requests import re import xlrd import xl ...
- 简单使用Python爬虫爬取淘宝网页商品信息
最近在学习爬虫,本人还是入门级的小白,自己跟着老师写了一些代码,算是自己的总结,还有一些心得,跟大家分享一下,如果不当,还请各位前辈斧正. 这是代码: # 导入库 import requests im ...
- python爬虫爬取链家网房价信息
打开链家网页:https://sh.lianjia.com/zufang/ :用F12以页面中元素进行检查 <a target="_blank" href="/z ...
最新文章
- ii 第七单元 访问网络共享文件系统
- linux --常用命令
- 计算机文字处理操作题33,2017年国家计算机等级考试试题【文字处理】.doc
- 大数据面试-03-大数据工程师面试题
- 创建完maven工程之后,提示[FATAL_ERROR] Cannot start Maven: Project JDK is not specified. a href=''Configure...
- 如何枚举JavaScript对象的属性? [重复]
- 高德地图轨迹方向_阿里巴巴高德地图首席科学家任小枫:高精算法推动高精地图落地...
- matlab IIR滤波
- python黑帽子学习中的疑难-(一)取代netcat
- 无线通信设备安装工程概预算编制_电气设备安装工程计价与应用
- abaqus2018安装教程win10_win10怎么安装abaqus v6.12_win10系统abaqus v6.12安装详细教程
- 勘测定界坐标导入cad
- 温度报警器c语言课程设计,综合电子设计课程设计实验报告-可调温度报警器.doc...
- 欧奈尔RPS指标选股!本地数据源快速遍历全市场!股票量化分析工具QTYX-V2.3.1...
- 高精地图落地 | InstaGraM:实时端到端矢量化高精地图新SOTA!
- seajs学习(6)----配置
- 爬取招聘网站信息,并使用pyecharts和matplotlib进行简单的可视化测试
- 超级电脑病毒入侵伊朗核电厂
- IOS 获取苹果手机的分辨率
- 揭秘:《网络营销推广技术、技巧深度解密》的前世今生