目录

1 数据描述

2 数据预处理

应用日期计算函数

应用匹配查找函数

逻辑判断函数

Python缺失值处理

3 数据分析及可视化

3.1描述统计

3.2 热力图

一、待分析的大数据描述

本例选取的数据集air.xlsx,数据集显示的是2014年至2018年全国部分城市空气污染物情况。数据集中有557425个样本,样本由time(时间)、city(城市)、AQI、PM2.5、PM10、SO2、NO2、CO、O3、primary_pollutant等多个属性。

图1 空气质量数据集air.xlsx

二、对已描述大数据的预处理

应用日期计算函数

将time(时间)字段拆分为年、月和季度:

=YEAR(A2)     返回对应日期的年份

=MONTH(A2)    返回对应日期的月份

应用匹配查找函数

图2 季度拆分函数

LOOKUP函数:将查找值返回一行或一列进行查找,返回一行或列中相同位置的数值。

把日期对应的月份在数组{1,4,7,10}里查找,如果可以匹配,就返回当前月份在数组里的位置,如果月份在数组里匹配不到,就返回小于等于当前月份最大值所属的位置。

图3  time(日期)拆分为年、月、季度

逻辑判断函数

通过查阅相关资料,发现根据AQI空气质量指数可以讲空气质量划分为优、良、轻度污染、中度污染、重度污染和严重污染6种污染程度类型。

图4  AQI空气质量指数

因此,应用IF函数在air.xlsx数据集中新增一列pollute_type(污染程度)。

IF函数:判断是否满足某个条件,如果满足返回一个值,如果不满足则返回另一个值。

图5  IF条件判断函数

图6  新增pollute_type(污染程度)列Excel数据集

缺失值处理

图7 缺失值处理Python相关代码

缺失值统计:

统计缺失值可知,只有O3和primary_pollutant(主要污染物)存在缺失值,其中,O3有345908条缺失值,primary_pollutant有28837条。

图8 各字段列缺失值统计

用O3列均值填充O3列的缺失值,将primary_pollutant列的缺失值用“未知填充”。

图9 缺失值处理

三、对已预处理大数据的分析

A、全国空气质量最佳的TOP20个城市

B、全国PM2.5污染最严重的的30个城市(条形图)

C、城市空气质量情况(以北京为例)

D、空气质量成分相关系数热力图

Python数据分析(描述统计)

图10  AQI和PM2.5描述统计

Excel数据透视基础图表

图11 全国PM2.5均值污染最严重的的30个城市

由图11可知,全国PM2.5污染最严重的的城市是鹤壁,PM2.5均值最高为306,污染最严重的的30个城市排名最末的是焦作,PM2.5均值为71。

图12 2013年北京空气质量指数类别环形图

由图12可知,2013年北京一年中有190天处于重度污染,占全年的76%,空气质量为优的占14.6%。

Python可视化

(1)计算AQI空气质量指数和各种成分指标值的相关性

图13 计算相关性及绘制热力图代码

图14 各成分指标值的相关系数

(2)然后通过计算出的相关系数,绘制热力图

图15 各成分指标值的相关系数热力图

由绘制的相关系数热力图,由可知空气质量指数AQI与PM10的相关性最大(0.81)、NO2(0.56),与O3略呈负相关性。

python空气质量指数计算_空气质量指数数据分析可视化相关推荐

  1. python统计学书籍推荐_推荐 | 统计数据分析挖掘书单呈现

    给大家推荐一些统计.分析.挖掘书籍,推荐语包括购买地址后面慢慢在补充.大家有好的书籍也可以推荐,持续连载中..封面这个本书也非常给力,31位作者合力写的,到时候也给大家推荐下. 统计学 <看穿一 ...

  2. python空气质量指数计算_现在,哪个城市的空气最好闻?空气质量指数分布图——Python实例...

    我们要做如下两张图. 空气质量指数AQI的分布图. PM2.5的分布图. 一.获取空气质量指数AQI和PM2.5浓度数据 刚开始想找这个网站,可网页打开的速度太慢,导致代码执行一度停滞. 网站提供的实 ...

  3. python空气质量指数计算_历史空气质量指数查询示例代码

    #!/usr/bin/python # encoding:utf-8 import urllib2, json, urllib # 2.历史空气质量指数查询 data = {} data[" ...

  4. java统计各空气质量最大值_空气质量历史数据分析

    近些来年环境问题已经成为人们越来越关注的话题,为了要统计某个城市近些年来空气质量问题,需要对这个城市近些年来空气质量数据下载,从而分析其空气质量变化情况及原因.那么如何得到这些数据呢,当然是越简单实惠 ...

  5. python 修改计算机名_静心学数据分析002-python基础

    1.前言 在安装好miniconda后,可以开始<learn python3 the hard way--a very simple introduction to the terrifying ...

  6. python123空气质量提醒_空气质量接口调用示例

    #!/usr/bin/python # -*- coding: utf-8 -*- import json, urllib from urllib import urlencode #-------- ...

  7. 室内空气流动原理图_空气流动基本原理.PPT

    空气流动基本原理 第二章 空气流动基本原理 主要研究空气流动过程中宏观力学参数的变化规律以及能量的转换关系. 内容: 风流压力.风流流动方程.通风阻力.通风网络中风流的基本定律.简单通风网络特性.自然 ...

  8. python 深度 视差 计算_开源双目视觉BM算法-Matlab/Python/Javascript

    更新:应朋友要求,增加了一个Python版本的BM算法和Javascript版本 Python版本BM​github.com JAVASCRIPT版本BM​github.com 整理以前的代码,找到了 ...

  9. python股票技术指标计算_通达信指标python都实现,python计算macd等技术指标,有什么包吗...

    Q1:python计算macd等技术指标,有什么包吗 有的,包的链接如下: https://github.com/lovelylain/pyctp/tree/master/example/ctp/ta ...

最新文章

  1. Java是如何实现自己的SPI机制的? JDK源码(一)
  2. Greenplum Hadoop分布式平台大数据解决方案实战教程
  3. 您能否提供一些示例,说明为什么用正则表达式很难解析XML和HTML? [关闭]
  4. 无法安装mysql server 2008_Windows Server2008安装mysql5.6出现程序无法正常启动(0xc000007b)...
  5. VS2015占内存大吗?_手机是6GB运行内存,何为后台却显示3G内存?
  6. 国内大数据开发中比较受欢迎的几款工具
  7. Concurrent实现原理
  8. 你真的了解JS数组的那些方法吗?
  9. maya中将每帧渲染成图片,再用播放器播放
  10. No New-Net
  11. java64位安装包下载_java64位安装包
  12. unity插件共享汇总大全
  13. 支持DX11游戏对硬件的要求
  14. win10家庭版调出组策略_普通用户选择哪个Win10系统版本?家庭版与专业版的对比介绍...
  15. 青年同辈应该有大器晚成的心理准备,共勉
  16. 学生评教系统--教师评教
  17. 交换机和路由器之间区别
  18. Mac快速文字处理软件:Mellel
  19. MFC ActiveX控件的3种调用方式
  20. Velocity详解及demo

热门文章

  1. html单文档编辑器,用VC++MFC做文本编辑器(单文档模式)
  2. 仿真软件测试基尔霍夫定律,基尔霍夫定律教案.doc
  3. 60个前端常用的实现方法(邮箱,手机号,url地址)
  4. 阿里:为了不死 只能求生 淘点点肩负重任
  5. 装ubuntu系统U盘制作启动盘
  6. 在AD17中如何自定义板子大小
  7. 免费下载excel办公软件_Smartbi电子表格下载
  8. 北京信息科技大学第十一届程序设计竞赛(重现赛)
  9. 阿里总部对外解密双11超级工程背后的数据库技术
  10. 分苹果 有A,B两个同学想要分苹果