本着对于出游的向往,但又苦于没有找到合适的机票价格。于是,萌生了去获取相关网站的机票信息。一开始是想去获取全站机票信息,但是那个工作量太大,而且机票价格在一天时间里经常变更,给数据的爬取增加了极大的难度——拿到的数据都可以建个一样的机票价格查询网站了。最终决定只爬取关键部分的信息,其余的不做处理。

目前的大致功能如下:

  • 获取特价机票信息
  • 选择出行的目的地
  • 根据目的地,输出相应省份的特价机票信息

多了上面的第三点的原因,是因为要去的目的地可能没有特价机票,但是同省的其他地区有。


目标网站选取

这里选择了阿里旅行的国内机票网页。

特价机票的数据就在下面等着我们了,Go Go Go!

在特价航班那里,我们看到可以选择到多少天的航班。随意切换时间后,发现这个特价机票的数据在重新加载后并没有刷新页面,初步断定为ajax的异步加载。


## 数据来源定位 ##

打开 浏览器的“开发者工具”,我们对接下来的请求进行抓取。切换到Network标签,清空当前抓取到的Network收发请求,如下

这时,我们把航班的时间从“7天内航班”修改到“14天内航班”,确认后在Network下抓取到了6条数据,其中前4条是选择的时候自动出现,后面两条(红色框里所见)是选择完后,在重新加载“特价机票”页面的时候出现。我们接下来的工作重点就在这里。

红色框里的第一条,点开后发现没什么内容,看起来像是一些规定接下来接收数据时的格式。

接下来,我们看红框里的第二条,看地址,那么点意思,然后再“Headers”里,是属于“Get”请求,那么它到底是“Get”到了什么呢?

点开地址后,我们看到一大堆JSON格式的数据,仔细看看,是不是和特价机票里面的信息很像呢。其中有一段如下打头的数据”\u897f”,这个是按照Unicode方式编码,转码后就可以显示成中文。

    arrName":"\u897f\u5b89"


## 数据解析 ##

接下来要做的内容就是解析这一堆数据。使用的是Python。

未完待续——

Python 爬虫-爬取阿里旅行特价机票信息(1)相关推荐

  1. 爬虫07 爬取阿里旅行特价机票

    https://sjipiao.alitrip.com/cheap_flight_search.htm?tripType=0&depCityName=&depCity=&arr ...

  2. python爬虫爬取当当网的商品信息

    python爬虫爬取当当网的商品信息 一.环境搭建 二.简介 三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面 书籍商品html页面解析 其他商品html页面解析 四.代码实现 ...

  3. python爬虫爬取大众点评店铺简介信息

    python爬虫爬取大众点评店铺简介信息 写作目的: 爬取目标 大众点评的保护机制 应对方法 还存在的问题 写作目的: 今天帮朋友一个忙,要爬取一些大众点评上的数据.结果发现大众点评的防爬机制还挺多的 ...

  4. 使用python+selenium爬取同城旅游网机票信息

    最近使用python+selenium爬取了同城旅游网机票信息 相关主要代码如下,通过模拟人为操作,拿下了这个机票列表的html代码,然后就可以使用xpath或者re等方式从中提取需要的字段信息了. ...

  5. Python爬虫爬取智联招聘职位信息

    目的:输入要爬取的职位名称,五个意向城市,爬取智联招聘上的该信息,并打印进表格中 #coding:utf-8 import urllib2 import re import xlwtclass ZLZ ...

  6. 【Python爬虫案例学习20】Python爬虫爬取智联招聘职位信息

    目的:输入要爬取的职位名称,五个意向城市,爬取智联招聘上的该信息,并打印进表格中 ####基本环境配置: Python版本:2.7 开发工具:pycharm 系统:win10 ####相关模块: im ...

  7. python爬虫爬取19楼相亲女信息

    最近在温习python爬虫知识,写了个简单的爬虫. 能爬取500页相亲女的信息 #coding=utf8 import requests import re import xlrd import xl ...

  8. 简单使用Python爬虫爬取淘宝网页商品信息

    最近在学习爬虫,本人还是入门级的小白,自己跟着老师写了一些代码,算是自己的总结,还有一些心得,跟大家分享一下,如果不当,还请各位前辈斧正. 这是代码: # 导入库 import requests im ...

  9. python爬虫爬取链家网房价信息

    打开链家网页:https://sh.lianjia.com/zufang/  :用F12以页面中元素进行检查 <a target="_blank" href="/z ...

最新文章

  1. ii 第七单元 访问网络共享文件系统
  2. linux --常用命令
  3. 计算机文字处理操作题33,2017年国家计算机等级考试试题【文字处理】.doc
  4. 大数据面试-03-大数据工程师面试题
  5. 创建完maven工程之后,提示[FATAL_ERROR] Cannot start Maven: Project JDK is not specified. a href=''Configure...
  6. 如何枚举JavaScript对象的属性? [重复]
  7. 高德地图轨迹方向_阿里巴巴高德地图首席科学家任小枫:高精算法推动高精地图落地...
  8. matlab IIR滤波
  9. python黑帽子学习中的疑难-(一)取代netcat
  10. 无线通信设备安装工程概预算编制_电气设备安装工程计价与应用
  11. abaqus2018安装教程win10_win10怎么安装abaqus v6.12_win10系统abaqus v6.12安装详细教程
  12. 勘测定界坐标导入cad
  13. 温度报警器c语言课程设计,综合电子设计课程设计实验报告-可调温度报警器.doc...
  14. 欧奈尔RPS指标选股!本地数据源快速遍历全市场!股票量化分析工具QTYX-V2.3.1...
  15. 高精地图落地 | InstaGraM:实时端到端矢量化高精地图新SOTA!
  16. seajs学习(6)----配置
  17. 爬取招聘网站信息,并使用pyecharts和matplotlib进行简单的可视化测试
  18. 超级电脑病毒入侵伊朗核电厂
  19. IOS 获取苹果手机的分辨率
  20. 揭秘:《网络营销推广技术、技巧深度解密》的前世今生

热门文章

  1. 【乱谈】给过去的告别
  2. ipv6是什么?ipv6怎么上网?
  3. @Autowired自动装配
  4. 视频教程-【UI/UE设计师】banner设计原则-UI
  5. 如何增加VMWare虚拟机的磁盘空间(两种方法:增加磁盘方式和增加分区方式)
  6. python变量在使用前可以不赋值即使用_python定义变量不赋值
  7. vs2017+pangolin的配置教程
  8. win10 vc++6.0 2019下载实测有效
  9. android 禁止输入空格,关于input禁止输入空格
  10. 微信小程序 |从零实现酷炫纸质翻页效果