python爬虫爬取(中国空气质量在线监测分析平台)北京PM2.5,2013年至2018年的数据
要爬取的数据网站如下图所示:
即是爬取该网站2013年12月2日至2018年11月份北京空气质量指数历史数据,其中要爬起的 内容如PM2.5,So2等,即是从这个网页内置的表格中爬取,因为该网站比较有规律,代码实现不是很难,爬取上述表格数据,存储为csv文件格式,具体代码如下述所示:
import time
from urllib import parse
import pandas as pd
from selenium import webdriver
driver = webdriver.PhantomJS('phantomjs-2.1.1-windows\bin\phantomjs.exe')
base_url = 'https://www.aqistudy.cn/historydata/daydata.php?city='
def get_month_set():month_set = list()for i in range(12, 13):month_set.append(('2013-%s' % i))for i in range(1, 10):month_set.append(('2014-0%s' % i))for i in range(10, 13):month_set.append(('2014-%s' % i))for i in range(1, 10):month_set.append(('2015-0%s' % i))for i in range(10, 13):month_set.append(('2015-%s' % i))for i in range(1, 10):month_set.append(('2016-0%s' % i))for i in range(10, 13):month_set.append(('2016-%s' % i))for i in range(1, 10):month_set.append(('2017-0%s' % i))for i in range(10, 13):month_set.append(('2017-%s' % i))for i in range(1, 10):month_set.append(('2018-0%s' % i))for i in range(10, 11):month_set.append(('2018-%s' % i))return month_set
month_set = get_month_set()
city = '北京'
file_name = city + '.csv'
fp = open(file_name, 'w')
fp.write('%s,%s,%s,%s,%s,%s,%s,%s,%s\n'%('date','AQI','grade','PM25','PM10','SO2','CO','NO2','O3_8h'))#表头
for i in range(len(month_set)):str_month = month_set[i]weburl = ('%s%s&month=%s' % (base_url, parse.quote(city), str_month))driver.get(weburl)dfs = pd.read_html(driver.page_source,header=0)[0]time.sleep(1)#防止页面一带而过,爬不到内容for j in range(0,len(dfs)):date = dfs.iloc[j,0]aqi = dfs.iloc[j,1]grade = dfs.iloc[j,2]pm25 = dfs.iloc[j,3]pm10 = dfs.iloc[j,4]so2 = dfs.iloc[j,5]co = dfs.iloc[j,6]no2 = dfs.iloc[j,7]o3 = dfs.iloc[j,8]print(date)print(aqi)fp.write(('%s,%s,%s,%s,%s,%s,%s,%s,%s\n' % (date,aqi,grade,pm25,pm10,so2,co,no2,o3)))print('%d---%s,%s---DONE' % (city.index(city), city, str_month))
fp.close()
driver.quit()
print ('爬虫已经爬完!请检测!')
最后爬取结束以北京.csv进行存储。爬取的结果如下所示:
接下来利用该数据便能进行相关机器学习或者深度学习的算法实验了。
python爬虫爬取(中国空气质量在线监测分析平台)北京PM2.5,2013年至2018年的数据相关推荐
- 爬取中国空气质量在线监测分析平台
1.准备,爬取的链接地址 https://www.aqistudy.cn/html/city_detail.html 2.分析 a.当打开链接后,数据已经设置好了,说明里面大部分都是js通过ajax调 ...
- 中国空气质量在线监测分析平台-js混淆的坑
中国空气质量在线监测分析平台-js混淆的坑 一.背景 二.过程 1.确定加密参数 2.确定加密函数 3.处理js函数 三.总结 一.背景 分析过程参照:https://cuiqingcai.com/5 ...
- python爬取中国空气质量在线监测平台分析数据【已更新】
**本文介绍如何爬取诸如北京等城市的空气污染物浓度数据,并附有完整代码,统统解决你们找不到数据的科研问题!干货满满!!! 2021年1月12日更新 看了很多小伙伴的评论,发现我的代码被官方给" ...
- java获取空气质量在线监测分析平台(PM2.5真气网)数据
空气质量在线监测分析平台(PM2.5真气网) https://www.aqistudy.cn/ 获取实时监测数据: 通过以上信息可知请求需要携带的参数d是加密的,返回的信息也是加密的 查找getSer ...
- 利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程
项目内容 本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析 词云可视化 2. ...
- python爬虫爬取中国天气网_【实战】中国天气网爬虫之华北城市数据爬取
概述: 在人工智能来临的今天,数据显得格外重要.在互联网的浩瀚大海洋中,隐藏着无穷的数据和信息.因此学习网络爬虫是在今天立足的一项必备技能.本路线专门针对想要从事Python网络爬虫的同学而准备的,并 ...
- python 爬虫爬取中国新闻网
中国新闻网的新闻种类较多.而且新闻比较丰富,如果需要获取大量新闻的话,中国新闻网是个不错的选择. 界面是这样的: 从url不难发现,改变日期就能获取不同日期的新闻 那么,正文开始... 1.获取某一个 ...
- python 爬取城市空气质量数据
[python]爬虫爬取中国城市的空气质量数据 使用工具:pycharm/python3.7,Chrome driver 使用库:selenium,time 一.下载Chrome driver(必读) ...
- Python爬虫 | 爬取高质量小姐姐照片
Python爬虫 | 爬取高质量小姐姐照片 1.数据来源分析 2.获取author_id_list和img_id 3.制作detial 4.制作detial_list 5.数据保存 6.批量获取 7. ...
最新文章
- oracle扩容日志文件,ORACLE 加大日志文件
- linux下安装Jira6.3
- 【报告分享】2020年中国在线教育创新企业榜单.pdf(附下载链接)
- 分享2个第三方社会化分享按钮及分享工具
- html view设置全屏,uni-app 如何设置web-view 不全屏,不自动铺满,动态控制web-view的高度...
- Java神鬼莫测之MyBatis实现分页全过程(三)
- css img 适配尺寸_CSS——img标签图片适配居中问题
- 【行业】盘点BAT如何进行技术布阵
- cfe刷机教程 斐讯k3_玩转斐讯K3详细刷机——直接刷LEDE
- MQTT代理服务器的选择
- WinRAR密码破解(精)
- jQuery 瀑布流插件
- 程序员的键盘使用指南
- Openlayers之地图比例尺控件
- UT-Exynos4412开发板三星ARM四核旗舰开发平台android4.0体验-12音频输入输出功能调试
- windows客户端开发--也许是一条不归路
- 大数据之Hive函数及案例
- 【整理】PJSIP开源库详解
- 常系数非齐次线性微分方程(两种常见形式)
- 优势谈判--读后感悟
热门文章
- “打工与创业”普通人该怎么选择;唯有创业才能改变命运实现财务自由。丨国仁网络资讯
- QT 实现图片旋转及缩放
- 新技能get,微信提现这样操作可免手续费
- 2--java面向对象语法学习(部分1-变量,重载,重写)
- WiFi模块(ESP8266)获取时间、天气API AT指令串口调试
- 电子科技大学和东北大学计算机专业哪个好,2016东北大学VS电子科技大学 谁执牛耳?...
- 微信视频号怎么涨粉?我总结了5条经验_
- 实现一个博客系统(前端页面设计)
- 基于android的电子书阅读器app
- 全球及中国专用肥行业供需态势与未来运行前景规划报告2022版