原文链接:http://www.changxuan.top/?p=463


八月十五的晚上,一个同学来找我要机场出租车的数据!Excuse me,我们不生产数据、只做数据的搬运工 。

随后我在各大平台上都没找到合适的数据集,找到一些之前其他比赛的数据集,但是针对特定机场的出租车数据除了“飞常准”上有一份浦东机场的就没找到别的!想想也是,谁没事统计这个东西!不过知乎上的大神就是多啊,我找着找着看到一个人给了个链接:

下方链接已失效!!!(2021.05.31)

 http://www.whalebj.com/xzjc/default.aspx?tdsourcetag=s_pctim_aiomsg

打开后如下图所示,

看样子这个数据应该可以应付一下了!在频繁的刷新网页之后,初步判断没有反爬虫措施就马上打开 PyCharm 开始写程序(写的仓促,能跑即可)

import requests
from lxml import etree
import time
import csv
import re
header = ['时间', '场内待运车辆数', '前半小时进场车辆数', '前半小时离场车辆数']
with open('./taxi_info_xzjc.csv', encoding='UTF-8', mode='w') as f:f_csv = csv.writer(f)f_csv.writerow(header)
f.close()headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'
}def save_data(data):with open('./taxi_info_xzjc.csv', encoding='UTF-8', mode='a+') as f:f_csv = csv.writer(f)f_csv.writerow(data)f.close()
def get_info(url):res = requests.get(url, headers=headers)if res.status_code == 200:selector = etree.HTML(res.text)at_time = selector.xpath('//*[@id="Label_Msg"]/text()[3]')[0][7:].rstrip(')').lstrip()car_num_in_room = selector.xpath('//*[@id="Label_Msg"]/text()[5]')[0]car_num_in_room_num = re.search(r"\d+", car_num_in_room).group()before_half_hour_in_car = selector.xpath('//*[@id="Label_Msg"]/text()[7]')[0]before_half_hour_in_car_num = re.search(r"\d+", before_half_hour_in_car).group()before_half_hour_out_car = selector.xpath('//*[@id="Label_Msg"]/text()[9]')[0]before_half_hour_out_car_num = re.search(r"\d+", before_half_hour_out_car).group()tup = (at_time, car_num_in_room_num, before_half_hour_in_car_num, before_half_hour_out_car_num)save_data(tup)if __name__ == '__main__':url = "http://www.whalebj.com/xzjc/default.aspx?tdsourcetag=s_pctim_aiomsg"while 1:get_info(url)time.sleep(10)

测试可以抓取数据之后,便扔到服务器上执行下面的命令,便可以安心睡觉了!

setsid python -u getTaxiInfo.py > run.log 2>&1

第二天早晨,查看一下结果:


微信订阅号

——Worldhello 给你说些好玩的事情

【爬虫】获取新郑机场出租车实时数据相关推荐

  1. Java爬虫获取豆瓣的短评数据

    Java爬虫获取豆瓣的短评数据 打开豆瓣的选电影页面的链接,可以看到该网页的下面分为热门,最新,经典等栏目分类,网页每次显示20部电影,通过几部电影的查看,可以发现电影的短评页https://movi ...

  2. Python爬虫获取基金持仓股票数据

    Python爬虫小实战 . 通过Python爬虫获取基金持仓股票数据,按照基金持仓金额对股票进行排行,并储存在本地数据库. from urllib import request from bs4 im ...

  3. 【Python】爬虫获取微博热搜数据,response中文显示“\u7814\u7a76\u8bc1\u5b9e\u”

    问题描述 在爬虫获取微博热搜数据的时候,response中文出现了不便于理解的字段,截取如下: ......[{"title_sub":"\u7814\u7a76\u8b ...

  4. 可转债数据一览表集思录_EXCEL一键获取可转债所有实时数据

    在本文的底部,各位读者可以获取对应的EXCEL模板. 偶尔使用集思录数据做可转债投资,但一些关键数据需要注册会员才可以使用,而且分析时经常需要导入到EXCEL中计算更多的个性指标. 因此,我用EXCE ...

  5. python 爬虫 获取bilibili search搜索数据,返回json格式

    话不多说直接上代码 测试用例 : 搜索java为关键词的 时长在60分钟以上的视频 import requests import json import osheaders = {"user ...

  6. 有哪些网站值得用python爬虫获取很有价值的数据

    ^___^一个程序员的淘宝店:点击打开链接,助你快速学习python技术的一臂之力,不喜欢看广告的请忽略这条! 0.IT桔子和36Kr在专栏文章中(http://zhuanlan.zhihu.com/ ...

  7. php获取td数据,记一次用PHP做爬虫获取全市高考报考数据

    去年使用了Python的BS4+Requests爬取了这个数据,但是不慎rm -rf / 了,这次使用PHP重新爬取一次. 本文仅供学习交流,不要干坏事哦~ 首先打开招生考试信息网的查询页面: 然后输 ...

  8. python 爬虫,获取携程网站机票数据

    爬取携程机票数据 from prettytable import PrettyTable import requests import jsondef xiecheng(dcity, acity, d ...

  9. 网络爬虫-获取网页中的数据加伪装头,伪装成浏览器多次访问,避免单次访问导致ip被封

    User-Agent:用户代理.是一种向访问网站提供你所使用的浏览器类型.操作系统及版本.CPU 类型.浏览器渲染引擎.浏览器语言.浏览器插件等信息的标识.UA字符串在每次浏览器 HTTP 请求时发送 ...

  10. CSDN 2020 博客之星实时数据排名(Python 爬虫 + PyEcharts)

    CSDN 2020 博客之星实时数据排名:csdn.itrhx.com CSDN 一年一度的博客之星评选开始了,官网地址:https://bss.csdn.net/m/topic/blog_star2 ...

最新文章

  1. .net 实现 URL重写,伪静态
  2. Qt应用程序主窗口之一:主窗口框架
  3. linux 安装 apache+mysql+php
  4. 关于request.setAttribute多页传值,多页取值
  5. 初识tmux---编译安装tmux
  6. tableau可视化数据分析60讲(十三)-tableau常用可视化视图(条形图折线图饼图)
  7. python获取文本框里输入的值_如何从Tkinter文本框小工具获取输入?
  8. delete hive_Hive高级调优
  9. WMI介绍和应用查询硬件信息(硬盘信息、主板信息、BIOS信息、显示器信息、网络适配器、CPU信息)
  10. 【剑指Offer】10、矩形覆盖
  11. c++ PP第九章最后一题
  12. 软件分享 AirPlayer
  13. 王可欣作业一 统计软件简介与数据操作
  14. 浅色羽毛,轻盈身体,鸟儿风雨迁徙路 附:五十幅漂亮之鸟高清大图
  15. 想报考pmp(pmp报考费),一定要先经过培训机构吗?
  16. 外网内网同时使用--设置如下
  17. 詹姆斯·高斯林-JAVA之父
  18. Voron 3d打印机 Klipper双挤出配置方式
  19. STM32时钟系统(学习笔记之二)
  20. 11 wifi 驱动 进阶 http://blog.csdn.net/wh_19910525/article/details/7393615

热门文章

  1. 【LOJ】#6391. 「THUPC2018」淘米神的树 / Tommy
  2. c#--实例选号器--实现打印、序列化方式保存、二维码
  3. Mac下配置Nginx负载均衡
  4. 怎样使按钮响应回车键
  5. 将文件夹下所有csv文件转换成所有txt
  6. python指数积分
  7. tensorflow2.0:tf.keras.callbacks.EarlyStopping
  8. tensorboard的安装与使用
  9. 图像匹配之不变矩匹配法
  10. Qt 点击任意子控件,背景选中 选中背景