python爬虫爬取（中国空气质量在线监测分析平台）北京PM2.5，2013年至2018年的数据

要爬取的数据网站如下图所示：

即是爬取该网站2013年12月2日至2018年11月份北京空气质量指数历史数据，其中要爬起的内容如PM2.5，So2等，即是从这个网页内置的表格中爬取，因为该网站比较有规律，代码实现不是很难，爬取上述表格数据，存储为csv文件格式，具体代码如下述所示：

import time
from urllib import parse
import pandas as pd
from selenium import webdriver
driver = webdriver.PhantomJS('phantomjs-2.1.1-windows\bin\phantomjs.exe')
base_url = 'https://www.aqistudy.cn/historydata/daydata.php?city='
def get_month_set():month_set = list()for i in range(12, 13):month_set.append(('2013-%s' % i))for i in range(1, 10):month_set.append(('2014-0%s' % i))for i in range(10, 13):month_set.append(('2014-%s' % i))for i in range(1, 10):month_set.append(('2015-0%s' % i))for i in range(10, 13):month_set.append(('2015-%s' % i))for i in range(1, 10):month_set.append(('2016-0%s' % i))for i in range(10, 13):month_set.append(('2016-%s' % i))for i in range(1, 10):month_set.append(('2017-0%s' % i))for i in range(10, 13):month_set.append(('2017-%s' % i))for i in range(1, 10):month_set.append(('2018-0%s' % i))for i in range(10, 11):month_set.append(('2018-%s' % i))return month_set
month_set = get_month_set()
city = '北京'
file_name = city + '.csv'
fp = open(file_name, 'w')
fp.write('%s,%s,%s,%s,%s,%s,%s,%s,%s\n'%('date','AQI','grade','PM25','PM10','SO2','CO','NO2','O3_8h'))#表头
for i in range(len(month_set)):str_month = month_set[i]weburl = ('%s%s&month=%s' % (base_url, parse.quote(city), str_month))driver.get(weburl)dfs = pd.read_html(driver.page_source,header=0)[0]time.sleep(1)#防止页面一带而过，爬不到内容for j in range(0,len(dfs)):date = dfs.iloc[j,0]aqi = dfs.iloc[j,1]grade = dfs.iloc[j,2]pm25 = dfs.iloc[j,3]pm10 = dfs.iloc[j,4]so2 = dfs.iloc[j,5]co = dfs.iloc[j,6]no2 = dfs.iloc[j,7]o3 = dfs.iloc[j,8]print(date)print(aqi)fp.write(('%s,%s,%s,%s,%s,%s,%s,%s,%s\n' % (date,aqi,grade,pm25,pm10,so2,co,no2,o3)))print('%d---%s,%s---DONE' % (city.index(city), city, str_month))
fp.close()
driver.quit()
print ('爬虫已经爬完！请检测！')

最后爬取结束以北京.csv进行存储。爬取的结果如下所示：

接下来利用该数据便能进行相关机器学习或者深度学习的算法实验了。

python爬虫爬取（中国空气质量在线监测分析平台）北京PM2.5，2013年至2018年的数据相关推荐

爬取中国空气质量在线监测分析平台
1.准备,爬取的链接地址 https://www.aqistudy.cn/html/city_detail.html 2.分析 a.当打开链接后,数据已经设置好了,说明里面大部分都是js通过ajax调 ...
中国空气质量在线监测分析平台-js混淆的坑
中国空气质量在线监测分析平台-js混淆的坑一.背景二.过程 1.确定加密参数 2.确定加密函数 3.处理js函数三.总结一.背景分析过程参照:https://cuiqingcai.com/5 ...
python爬取中国空气质量在线监测平台分析数据【已更新】
**本文介绍如何爬取诸如北京等城市的空气污染物浓度数据,并附有完整代码,统统解决你们找不到数据的科研问题!干货满满!!! 2021年1月12日更新看了很多小伙伴的评论,发现我的代码被官方给" ...
java获取空气质量在线监测分析平台(PM2.5真气网)数据
空气质量在线监测分析平台(PM2.5真气网) https://www.aqistudy.cn/ 获取实时监测数据: 通过以上信息可知请求需要携带的参数d是加密的,返回的信息也是加密的查找getSer ...
利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇，超详细教程
项目内容本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析词云可视化 2. ...
python爬虫爬取中国天气网_【实战】中国天气网爬虫之华北城市数据爬取
概述: 在人工智能来临的今天,数据显得格外重要.在互联网的浩瀚大海洋中,隐藏着无穷的数据和信息.因此学习网络爬虫是在今天立足的一项必备技能.本路线专门针对想要从事Python网络爬虫的同学而准备的,并 ...
python 爬虫爬取中国新闻网
中国新闻网的新闻种类较多.而且新闻比较丰富,如果需要获取大量新闻的话,中国新闻网是个不错的选择. 界面是这样的: 从url不难发现,改变日期就能获取不同日期的新闻那么,正文开始... 1.获取某一个 ...
python 爬取城市空气质量数据
[python]爬虫爬取中国城市的空气质量数据使用工具:pycharm/python3.7,Chrome driver 使用库:selenium,time 一.下载Chrome driver(必读) ...
Python爬虫 | 爬取高质量小姐姐照片
Python爬虫 | 爬取高质量小姐姐照片 1.数据来源分析 2.获取author_id_list和img_id 3.制作detial 4.制作detial_list 5.数据保存 6.批量获取 7. ...

python爬虫爬取（中国空气质量在线监测分析平台）北京PM2.5，2013年至2018年的数据

python爬虫爬取（中国空气质量在线监测分析平台）北京PM2.5，2013年至2018年的数据相关推荐

最新文章

热门文章