Exploratory Data Analysis

Dataset: Daily Weather in the U.S., 2017

数据:

该数据集包含由NOAA每日全球历史气候学网络提供的2017年美国每日气象数据。该数据已被转换:一些仅具有稀疏测量值的气象站已被滤除。

数据集中包括:经度latitude、维度longtitude、海拔elevation、 州state、观测站station、 降水量PRCP(英寸)、 降雪量SNOW(英寸)、雪深SNWD(英寸)、 最高温度TMAX(F)、最低温度TMIN(F)、平均温度TAVG(F)、 日平均风速AWND(英里/小时)、最快的5秒风速度Wsf5(英里/小时)、最快5秒风向Wdf5(度)。

Analysis Questions

几种气候图:

影响因素包括美国降水、气温、降雪、积雪量、风速因素的研究,美国的气候情况比较复杂,不能通过单一的维度信息进行评判,通过背景知识以及直接可视化美国各州的气候图我们知道美国有温带海洋气候、地中海气候、热带沙漠气候、亚热带季风气候、温带大陆性气候、高山气候等多气候类型,所以我们从多维度对影响美国天气形成的因素进行了更全面的探究:

1.影响气温的主导因素与降水分布特征,通过可视化对比的长处维度是影响气温主导因素的结论。

2.降雪量与经纬度、海拔高度的关系,对比发现两者没有绝对影响优势的特点。

3.可视化降雪量与积雪量基本情况,出现特殊情况分析,最终得出影响积雪量的主要因素是海拔增高这一因素。

4.对日平均风速和最快5秒风速分析两者的关系,以及分析风速与海拔的关系,发现数据中心迎风坡风速大、背风坡风速小的特点。

1.影响气温的主导因素

针对这个问题主要是从直观上分析经纬度对于天气的影响,并通过观察特殊情况进一步向下分析其他因素对于天气的影响。

首先查看给出的测量点是否均匀分布,衡量数据的可信性,便于之后对数据做聚合按州分析:

数据数据时通过测量点给出的通过图示可以知道一个州有多个测量点通过分布可以看出比较均匀

所以一个州的观测点数据可以代表一个州的天气数据。之后的分析将数据按照州聚合分析,并且主要分析美国本土数据:

气温:

降水:

从总体数据来看,东南部气温高,西北部气温低;西部降水多余东部;东北部降雪相对高,纬度高降雪多;

其中对于同一个维度,从图上看气温相差较大,查看海拔对于温度的影响:

维度对平均气温的影响有多大?

面积代表平均温度的大小,颜色代表纬度红色表示纬度越低。绿色表示纬度越高。

从图中可以看出维度对于温度的影响很大,没有很明显的异常值,所以可以得出结论:维度对于美国的平均气温的影响最大。

不同海拔温度分布?

可以看出海拔对于平均气温影响明显;绿色线是美国横向地势按照5度为单位取样地势分布图,总体上西部高东部低;在西部山区温度随着海拔变化而改变明显,出现峰值或者低估是高海拔对温度造成的影响。

从全局来看海拔对于温度的影响:

横轴表示海拔,纵轴分别对应最高、最低、平均气温,满足海拔越高、气温越低的基本常识。

时间维度每个月美国的气温差异分布有多大?

通过箱型图看出,在1–4月美国各个州的温差相对较大,在5–9月温差相差不大。

2.降雪量与经纬度、海拔高度的关系

时间维度

可以看出降雪主要集中在1–3月,4月降雪量相对较少;

更为形象的降雪在时间上的分配:

约94%降雪分配在1–3月;

空间维度

降雪空间分布:

具体查看维度与降雪量关系:

颜色越蓝表示表示维度越高,面积越大表示降雪量越多;可以看出大部分符合维度越高降雪量越大,其中在低纬度部分地区出现(红色)出现降雪量也相对较多的异常情况(面积较大),考虑经度对于降雪量的影响主要在于沿海内陆还是地势信息,这里有地势信息,因此分析地势与降雪量关系:

对应上图低纬度地区但降雪量相对较多的部分地区地势也相对较高。

再考虑将维度、海拔放在一张图上对降雪量做比较:

可以看出两者没有绝对的相关性:影响天气的因素还有其他,这两个因素没有单纯的关系;同理经度、海拔对降雪量也没有单纯影响:

3.降雪量与积雪量关系

色块大小表示积雪量,颜色表示降雪量,红色表示降雪最大,绿色表示降雪最少,从图中可以看出,积雪量最大的不对应降雪量最大的,降雪量大的积雪量反而很少,说明两者没有正比关系,还收受海拔影响

,考虑海拔高的地方积雪不容易融化造成积雪量大,然后画出海拔、积雪量、降雪量图示:

横轴表示海拔,绿色表示降雪量,红色表示积雪量,删除了NULL值之后可以看出,基本高海拔地区积雪量比较大,虽然降雪少;低海拔地区降雪量大但是融化块,积雪量小。

4.日平均风速与最快5秒风速关系

绘制两者关系图:

不同颜色表示不能的州,横轴表示最快5秒风速,纵轴表示平均风速,可以看出两者成正比,以我们的常识一致,最快5秒风速表示短时间猛烈的风,可能是间断性的,一般猛烈的风大的时候,那一天的风也比较大。

再看海拔与风速是否有某种相关性:

横轴表示海拔,纵轴表示平均风速,2500大概为一个阈值,超过这个阈值之后风速中位数或者最大值变大,与常识海拔高的地方有时候风大一致:同时注意到高海拔地区的风速极差比较大,考虑是山的迎风坡和背风坡的影响,迎风面风速大,背风面风速小。

总结

查阅资料:

美国本土位于北温带,25°N~49°N,大部分地区属温带和亚热带,气候和降水比较适宜。

东南部属亚热带季风性湿润气候。因受墨西哥湾暖流的影响,温暖湿润,1月份平均温度在9℃左右,7月份为24℃-27℃。夏末秋初墨西哥湾沿岸常有飓风侵袭。年降水量平均在1500毫米以上。

中部中央平原的气候基本上也属温带大陆性气候,冬季寒冷,夏季炎热,气温较高,湿度大。

中央平原南部的年降水量受大西洋及墨西哥湾的影响高达1500毫米,此地的平均气温虽然很高,但常受来自北方寒流的侵袭。这一地区每年的无霜期在160到200天左右。

干燥的西部高原的年温差高达25℃,山岳地区山势越高气候越低。 纬度的差异对平均气温的影响也很大,从哥伦比亚高原到科罗拉多高原,冬季平均气温高出10℃,夏季则更明显。年平均降水量在500毫米以下,高原荒漠地带降水量不到250毫米。

太平洋沿岸北部属温带海洋性气候区,冬暖夏凉,雨量充沛,1月份平均气温在4℃以上,8月份平均气温不越过22℃。年平均降水量为1300毫米-1500毫米。

太平洋沿岸的南段属于亚热带地中海式气候,夏季炎热干旱,冬季温和多雨。

佛罗里达半岛南端属热带;阿拉斯加州位于北纬60至70度之间,属北极圈内的寒冷气候区;夏威夷州位于北回归线以南,属热带;

通过上述对于天气数据的分析,对于实际情况有了进一步的了解,更理解天气背后的实际意义;

更加熟练使用Tablure,了解内部如何实现聚合对数据的大规模处理;

对于可视化的有了进一步的了解;

在这个过程中逐步发现问题,并通过直接工具来解决问题。

内的寒冷气候区;夏威夷州位于北回归线以南,属热带;*

通过上述对于天气数据的分析,对于实际情况有了进一步的了解,更理解天气背后的实际意义;

更加熟练使用Tablure,了解内部如何实现聚合对数据的大规模处理;

对于可视化的有了进一步的了解;

在这个过程中逐步发现问题,并通过直接工具来解决问题。

Exploratory Data Analysis可视化分析美国天气相关推荐

  1. python进行探索性数据分析EDA(Exploratory Data Analysis)分析

    python进行探索性数据分析EDA(Exploratory Data Analysis)分析 show holy respect to python community, for there ded ...

  2. IBM Machine Learning学习笔记(一)——Exploratory Data Analysis for Machine Learning

    数据的探索性分析 1. 读入数据 (1)csv文件读取 (2)json文件读取 (3)SQL数据库读取 (4)Not-only SQL (NoSQL)读取 (5)从网络中获取 2. 数据清洗 (1)缺 ...

  3. 探索性数据分析(Exploratory Data Analysis,EDA)

    探索性数据分析(Exploratory Data Analysis,EDA)主要的工作是:对数据进行清洗,对数据进行描述(描述统计量,图表),查看数据的分布,比较数据之间的关系,培养对数据的直觉,对数 ...

  4. 【Python-ML】探索式数据分析EDA(Exploratory Data Analysis)

    # -*- coding: utf-8 -*- ''' Created on 2018年1月24日 @author: Jason.F @summary: 有监督回归学习-探索式数据分析(EDA,Exp ...

  5. R语言explore包进行探索性数据分析实战(EDA、exploratory data analysis):基于iris数据集

    R语言explore包进行探索性数据分析实战(EDA.exploratory data analysis):基于iris数据集 目录

  6. R探索新数据分析(Exploratory Data Analysis,EDA)

    R探索新数据分析(Exploratory Data Analysis,EDA) 目录 R探索新数据分析(Exploratory Data Analysis,EDA) str方法进行数据概览及类型查看

  7. 【CookBook pandas】学习笔记第五章 Exploratory Data Analysis

    dive more into - 深入讨论 exploratory data analysis , the process of sifting through the data and trying ...

  8. Kaggle Lending Club Loan Data数据可视化分析与不良贷款预测

    文章目录 数据集介绍 数据可视化分析前的数据预处理 引入包和数据集 对特征缺失值的处理 保存处理好的数据集 数据可视化分析 申请贷款金额和实际贷款金额的数据分布 每年贷款笔数直方图与每年贷款总金额直方 ...

  9. FALL_20_NOTE EDAV「Exploratory Data Analysis and Visualization」图像可视化

    一.课堂笔记 1. Intro to EDA WHY • detecting patterns • finding outliers • making comparisons • identifyin ...

  10. 探索性数据分析(Exploratory Data Analysis,简称EDA)

    EDA就是拿到数据后对数据进行探索,发现数据有何特征或问题,它可以: 1.更好地理解数据 2.建立对数据的直觉 3.形成假设 4.洞察数据 EDA的一个主要方式就是数据可视化,这让你可以直观地看到数据 ...

最新文章

  1. 入行AI,你需要一本Python机器学习入门
  2. netty源码分析服务器启动 NioEventLoop创建
  3. 基于局域网的扩展认证协议EAPOL Extensible Authentication Protocol
  4. linux系统监控:记录用户操作轨迹,谁动过服务器
  5. SpringCloud教程-注册中心(Consul)(SpringCloud版本Greenwich.SR4)
  6. ios 制作framework
  7. 在vmware虚拟机器上安装1000gwall(原创)
  8. Kali Linux 网络扫描秘籍 第二章 探索扫描(一)
  9. 多叉树的前序遍历_多叉树的创建和遍历(为Trie树做准备)
  10. BN(Batch Normalization)层原理与作用
  11. 计算机装系统常用单词,电脑bios中英文对照表大全,安装系统再也不怕英文了...
  12. 缠论中枢python源码_缠论中枢主图指标 源码 通达信 贴图 自动画笔
  13. Maven环境变量配置不成功
  14. antd去掉table自带的分页条
  15. 如何浏览自己的新浪微博图床
  16. Java将图片放入word文档中
  17. FT230X芯片的国产化替代
  18. css3的@media
  19. C++获取电脑主板唯一标识
  20. 关于HBulider,mui框架入手可行性

热门文章

  1. android远程控制电视,手机怎么远程控制电视
  2. 表单提交时报错:No result defined for action com.ylj.action.BbsAction and result input
  3. 什么是HTML5的媒体查询功能
  4. java使用memcached
  5. 为什么使用用友盟的摇一摇截屏功能,截出来的地图图片是黑屏的,渴求大师解答,感激不尽
  6. 详解Docker的网络模式之host模式(host网络模式)
  7. 操作系统的功能、作用、分类
  8. Google的黑科技你知道那些?
  9. 深圳学位锁定怎么计算机,【实用】如何查询深圳房子学位是否锁定?(附操作步骤)...
  10. yaml使用方法_通过网络使用YAML