项目背景

近年来,我国的环境问题比较严重,很多城市出现了雾霾天气,当然也有很多城市空气依旧清新,为了研究具体的空气环境城市分布,我们采用了假设检验以及线性回归的思想对AQI(空气质量指数)进行分析和预测,其中AQI的值越大,表示空气质量越差,AQI值越小,表明空气质量越好。

提出问题

1.列出空气质量优秀/较差的五个城市

2.全国空气质量分布情况

3.临海城市和内陆城市的空气质量对比

4.影响空气指数的因素

5.空气质量均值验证

数据字段描述

City 城市名

AQI 空气质量指数

Precipitation 降雨量

GDP 城市生产总值

Temperature 温度

Longitude 经度

Latitude 纬度

Altitude 海拔高度

PopulationDensity 人口密度

Coastal 是否沿海

GreenCoverageRate 绿化覆盖率

Incineration(10,000ton) 焚烧量(10000吨)

导入相应的模块以及数据集

数据处理

在进行数据分析之前,我们对数据集进行观察并对其中的缺失值、重复值、异常值进行处理

处理缺失值

我们发现降雨量数据中包含了4个缺失值,为了保证数据的精确,我们查一下降雨量的数据分布

降雨量分布图

很明显的呈现右偏分布,因此采用平均数来替代缺失值并不妥,我们这里用中位数来代替

缺失值处理

异常值处理

最常用的异常值检测方式为3倍标准差检验法,我们用此方法筛选出异常数据,并绘制对应的箱线图

异常值检测

GDP箱线图

GDP属性中检测出8条异常值,我们这里采取用极端值替换的方式,将异常值替换成最大值

df['GDP'][(df['GDP']upper)]=df['GDP'].mean()+3*df['GDP'].std()

重复值处理

重复值处理比较简单,筛选出来并删除即可

df.drop_duplicates(inplace=True)

数据分析及可视化

数据集处理完毕之后,我们开始进行数据分析

1. 列出空气质量优秀/较差的五个城市

按照AQI降序排列,选出排名前五以及后五的城市,进行可视化,结果如下

空气质量好的五大城市

空气质量堪忧的五个城市

结论:空气质量较好的城市为韶关市、南平市、梅州市、基隆市、三明市,空气质量堪忧的城市分别为焦作市、锦州市、保定市、朝阳市、北京市

2. 全国空气质量分布情况

这里我们将AQI指数分为六个等级,并根据等级统计全国空气质量的等级情况

全国空气质量等级划分图

我们再用散点图绘制下全国的空气质量分布

地理分布图

结论:我国城市的空气质量集中在一级、二级和三级,高污染城市比例较低;从地理位置来看,西部城市空气质量优于东部城市,南部城市优于北部城市。

3. 临海城市和内陆城市的空气质量对比

根据上面的结论我们发现,仿佛临海城市的空气质量普遍高于内陆地区,那么这个结论是否是真的呢?还需要进一步验证。

首先,我们来统计下不同地理环境的城市数量

内陆、沿海城市数量

第二步,绘制临海和内陆城市的AQI分布图

AQI分布

我们发现内陆城市AQI集中分布在50-100区间内,而沿海城市AQI集中分布在0-50区间,在此样本中,沿海的AQI分布低于内陆城市,但是这毕竟是样本,无法推测出总体分布情况,还需进一步探测。

第三步,统计AQI均值并绘制分布密度图

AQI均值

第四步,差异检验,查看内陆沿海AQI均值分布是否显著

我们先假设内陆城市和沿海城市的平均值相同

t检验

结果得出支持的概率为0.006,远低于0.05,因此我们否定原假设,选择备择假设,即内陆城市和沿海城市的平均值不相同

结论:经过分析,我们发现有超过99%的概率可以证明临海城市空气质量优于内陆城市的空气质量。

4. 影响空气指数的因素

为了探究影响空气质量的具体因素,我们需要计算出两个变量之间的相关系数,以此进行判断,这里采用热力图进行可视化操作。

sns.heatmap(df.corr(),annot=True,fmt='.2f')

相关系数热力图

结论:从显示结果看出,AQI主要受降雨量和纬度的影响,其中降雨量越多,空气质量越好(0.4);纬度越低,空气质量越好(-0.55)

当然,从整个图片来看,也能发现很多变量之间的关系,比如GDP与焚烧量的正相关系数达到了0.9,温度与纬度的负相关系数达到了-0.81等。

5. 空气质量均值验证

传闻空气质量均值在71左右,这个消息是否是准确的呢?我们进行一次验证。

首先计算样本的均值

df['AQI'].mean()

结果显示为75.334

那么总体的均值是否为71呢?这里先假设总体的均值为71,进行t检验

验证

结论:可以看出,偏离均值1.81倍的标准差,而且p值大于0.05,我们接受原假设(即空气质量均值在71左右)另外,我们还可以计算出在置信度为95%时,空气质量均值的置信区间为70-80。

总结

空气质量最好的城市是韶关、南平和梅州,最差的是北京。

分布总体显示,西部城市空气质量优于东部城市,南部城市优于北部城市。

临海城市空气质量总体好于内陆城市。

降雨量和纬度对空气质量影响较大。

我国平均空气质量指数在70-80之间,概率达到95%

python爬空气污染实时数据_python数据分析综合项目--空气质量指数分析相关推荐

  1. python爬空气污染实时数据_python爬虫之静态网页——全国空气质量指数(AQI)爬取...

    利用的python库,最近最流行的requests,BeautifulSoup. requests:用于下载html BeautifulSoup:用于解析 下面开始分析:要获取所有城市的aqi,就要进 ...

  2. python爬空气污染实时数据_一键爬取空气质量相关指数

    刚刚入门python,想上手一些比较简单的爬虫项目.今天我们来爬一爬一个空气质量指数的网站来获取全国城市的空气质量指数.记得跟着我的思路来哟! 前期准备工作 首先一个舒服的pythonIDLE肯定是必 ...

  3. python爬网页统计数据_Python爬取阿拉丁统计信息过程图解

    背景 目前项目在移动端上,首推使用微信小程序.各项目的小程序访问数据有必要进行采集入库,方便后续做统计分析.虽然阿拉丁后台也提供了趋势分析等功能,但一个个的获取数据做数据分析是很痛苦的事情.通过将数据 ...

  4. python爬取mysql数据_Python爬取数据并写入MySQL数据库的实例

    Python爬取数据并写入MySQL数据库的实例 来源:中文源码网    浏览: 次    日期:2018年9月2日 [下载文档:  Python爬取数据并写入MySQL数据库的实例.txt ] (友 ...

  5. python爬取json数据_Python爬取数据保存为Json格式的代码示例

    python爬取数据保存为Json格式 代码如下: #encoding:'utf-8' import urllib.request from bs4 import BeautifulSoup impo ...

  6. python爬取客流数据_Python爬取南京地铁微博发布客流数据并进行分析

    Python爬取南京地铁微博发布客流数据并进行分析 之前在网上看到了分析北京地铁客流数据的开源项目,就想试着分析一下南京地铁的客流数据,可是找了很久没有找到可以获得南京地铁客流数据的接口,就去南京地铁 ...

  7. python爬取房源数据_python爬取安居客二手房网站数据(实例讲解)

    是小打小闹 哈哈,现在开始正式进行爬虫书写首先,需要分析一下要爬取的网站的结构:作为一名河南的学生,那就看看郑州的二手房信息吧! 在上面这个页面中,我们可以看到一条条的房源信息,从中我们发现了什么,发 ...

  8. python爬取天气数据_Python爬取历史天气数据

    Python爬取历史天气数据 作者:梅昊铭 1. 导读 之前Mo给大家分享过杭州历年天气情况的数据集,相信有不少小伙伴好奇这些数据是怎么获取.今天Mo就来教大家如何使用Python来进行历史天气数据的 ...

  9. python爬取地理数据_python爬取所有人位置信息——腾讯位置大数据

    腾讯位置大数据 网站 https://heat.qq.com/ 网站功能介绍 腾讯位置大数据会将提供所有用户使用腾讯位置的数据信息,但没有用户信息(只有位置信息).从这个网站我们可以获取所有使用腾讯位 ...

最新文章

  1. 在内存只有 24KB 的电脑上写操作系统,是怎样的体验?
  2. 第九届全国大学生智能汽车竞赛获奖名单
  3. 使用Sencha Designer来快速开发web用户界面 -- 初识Designer
  4. 网络流-Dinic求最大流(仅做自己复习,写的很不清楚)
  5. 用C# (.NET Core) 实现迭代器设计模式
  6. 3月起这些新规将实施:从事网络招聘服务应取得许可证
  7. 我做计算机视觉工程师的第一个月都学会了什么?
  8. Java堆描述正确的是_Java面试题 每日一练(4.9)
  9. 后RCNN时代的物体检测及实例分割进展
  10. js获取引用的css样式,js获取css样式方法
  11. Python入门学习二:列表
  12. Hello, CTF WP
  13. 失业七个月,面试六十家公司的深圳体验(转贴)
  14. 微信小程序中判断用户是否已关注公众号的两种实现
  15. POI处理Excel,条形图,散点图,折线图
  16. 获得拼多多商品详情(商品主图、sku)
  17. 如何使文章分栏脚注不分栏?
  18. Intel 酷睿 i3、i5、i7 CPU 处理器之间有什么区别
  19. 服务器 系统打补丁,2019服务器系统打补丁方法
  20. 深圳搬家为什么要那么多注意事项

热门文章

  1. python面向对象编程结题报告_《华东师大基于点猫KITTEN计算思维课程开发》结题...
  2. ipa文件包获取服务器地址,ipa文件包获取服务器地址
  3. 服务器2012怎么换桌面背景,Windows Server 2012 R2 桌面化设置
  4. available: expected single matching bean but found 2
  5. 稀土掘金 2022 开发者大会观后总结
  6. flutter如何让row中的子组件高度保持一致
  7. Odoo 14 手册 采购订单 采购招标 代发货 供应商管理 对账
  8. 硕士论文查重经验(省钱又高效地查重经验,本人亲测,觉得有用点个赞)
  9. 百度AI开放平台人体分析_人像分割的Python示例代码
  10. jsp027ssm洗衣店管理系统