(文中和文末的广告,是腾讯微信平台自动插入的,和虾神无关……不过大家有闲心的话可以点击一下,点击之后,腾讯会对本公众号进行打赏……)


拿到一份数据,最先应该干嘛?

每到论文开题的时候,虾神经常接到邮件被询问这个问题(当然,到了deadline的时候,也有)拖延症这种全球统一不治之症啊……

说到这个问题——我先忏悔……我有罪……大家要体谅一个癌晚期患者啊,虾神可是在与病魔做不屈不挠的斗争。。。虽然大多数时候是被病魔击倒……

好吧,回到正题,拿到一份数据,第一件事应该做什么呢?答案当然是查看一下这份数据是否可用,或者说,是否有对我们要做的事情有帮助。

在工作中,在任务开始的时候,就发现可行性进行不下去,那么迅速调整方向或者干脆停止下来,是止损最合理的方式,但是若做到最后一步了,你回去给领导说,这个数据不行啊……这个功能做不了啊……这个XXX……,那么负责人肯定要疯……可以脑补一下,负责人会说些啥?当然,他除了诚恳的问候你的家人以外,会和你说的,一定会有这么一句:早干嘛去了?你怎么不早说?

所以,我们拿到数据第一件事,就是要对数据进行探索:

数据探索的手段又有哪些呢?答案就是三个字:可视化

说到这里,不得不说虾神经常接到的询问:

不管做什么分析,或者干脆都不知道要做什么分析的时候,把数据所有的特征都展现一遍,是最简单的分析入手方法。

当然, 各种可视化工具包汗牛充栋,不写代码的同学用Excel,写代码的同学可以用Python或者R,专业人士用SPSS等,那么今天我们来介绍一下ArcGIS内置的数据探索性分析工具——地统计中的探索性数据分析工具:

ArcGIS地统计模块提供的探索性分析工具,与其他软件提供的那些妖艳货完全不同,他是专门针对地统计中克里金插值时候需要参数来进行设计的,如果有见识过同学,会发现有些工具,压根不知道是用来干嘛的,也读不懂有啥意义,那么这几篇文章,我主要就这个堆工具给大家做个简单介绍。

先看看数据:

中国某一天的平均气温,总共有2257个气象观测站。

首先,我们看看整份数据整体趋势,最简单的就是采用直方图来进行处理:

先切出地统计分析规模,然后选择Explore Data —— Histogram:

有时候会出现这个的选择框:

这是表示,你有可能出现同一位置有两个以上的点的情况,系统提示,你如何处理,一般默认就是用平均数,当然,你也可以选择移除,或者用最大、最小值的方式,选择之后,点击OK,出现图形之后,在下发选择你要探索的数据属性,比如我们要对mean字段进行探索:

从这份数据可以看出,有两个很明显的波峰,我们点击两个波峰,来看看数据的分布情况:

第一个波峰,主要都集中在华北、秦岭山脉、青藏高原等温度相对较低的区域。

第二个波峰主要是南方广大区域,相对来说,温度比较高的区域。

这个选择交互性的效果,是ArcGIS的一个特性,与Python做的可视化效果图最大的不同就在于他可以根据你的需求进行交互。

这里的直方图,主要是用来显示数据的概率分布特征及其概括性的一些指标的,从上面的图形里面,我们就可以很直观的看见数据的分布概率。而且从右上角的小窗口里面,也能看见一些统计信息,比如个数(count),最小值(Min),最大值(Max),平均值(Mean),标准差(Std Dev.)、峰度(Kurtosis)、偏态(Skewness),四分之一分位数(1-st Quartile) ,中位数(Median),四分之三分位数(3-rd Quartile)。

PS:里面大部分的统计值都是常见,我简单解释两个比较少见的,峰度和偏态。

下面部分资料来自某度:

峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。

一般来说,如果是标准正态分布,那么峰度就应该是3,所以通常以3为参照,大于3,则表示分布具有过度的峰度,小于3则表示不足。

所谓的过度,指的是聚集度越高,即变量值的次数在众数周围分布比较集中,反之,不足指的是变量值的次数在众数周围比较分散。

这里我们看见,数据的峰度为2.2,也就是出现的是峰度不足,数据在众数的周围比较分散。

峰度越高,表示方差的增大是因为极值引发的。

偏态(skewness)是指非对称分布的偏斜状态,0表示完全无偏,大于0表示右偏态,小于0表示左偏态。

从上面这份数据的统计信息来看,数据略成左偏态,峰度小于3,值在中心附近呈现离散分布,但是中位数与平均值非常接近,可以认为,近似于正态分布,所以不需要变换。

当然,我们也可以通过Python来实现上面的效果:

当然,这里就是一个可视化效果,你要是有交互的需求,就别想太多了……

上图的源码和数据位置如下:

https://github.com/allenlu2008/PythonDemo/tree/master/008插值/地统计插值

白话空间统计三十:地统计(4)探索性数据分析(1)相关推荐

  1. 三十四、R语言数据分析实战

    @Author : By Runsen @Date : 2020/5/14 作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件.导致翘 ...

  2. 二进制空间权重矩阵_白话空间统计之二十五:空间权重矩阵(三)解构空间权重矩阵...

    原标题:白话空间统计之二十五:空间权重矩阵(三)解构空间权重矩阵 中国古代就有"天圆地方"一说,所谓的"方"就是所谓的矩阵-- 在军事上面,最为讲究就是团体的力 ...

  3. 白话空间统计十九:热点分析(上)

    白话空间统计十九:热点分析(上) 哈罗,各位好,话说虾神已经消失很久了,很多人在问是不是停止更新了?那肯定是不可能的,虾神发下宏愿,要把白话空间统计写完的.只不过这段时间遇上各种加班和一年一度的用户大 ...

  4. moran指数 r语言_白话空间统计之二十五:空间权重矩阵(四)R语言中的空间权重矩阵(2):不同空间关系对莫兰指数的影响...

    原标题:白话空间统计之二十五:空间权重矩阵(四)R语言中的空间权重矩阵(2):不同空间关系对莫兰指数的影响 上一篇,讲了R语言中的空间权重矩阵的结构,这一节讲讲R语言里面空间权重矩阵的自定义. 与Ar ...

  5. 白话空间统计二十四:地理加权回归(八)结果解读(一)

    地理加权回归分析完成之后,与OLS不同的是会默认生成一张可视化图,像下面这张一样的: 这种图里面数值和颜色,主要是系数的标准误差.主要用来衡量每个系数估计值的可靠性.标准误差与实际系数值相比较小时,这 ...

  6. 新版白话空间统计(1):前言与地理学第一定律

    CSDN的被爬虫专用声明:虾神原创,公众号\知乎:虾神说D 转发.转载和爬虫,请主动保留此声明. 前言 2015年7月27日,虾神在csdn博客频道,首次放出第一篇白话空间统计,到今天已经4年多了. ...

  7. 白话空间统计二十一:密度分析(五)带宽与核表面曲率的关系

    白话空间统计二十一:密度分析(五) 上次讲密度分析的时候,有同学问道带宽的问题,实际上我翻 了一下以前写的文章,在密度分析一.二里面,都对这个有过描述,详细的可以回去翻一下(很老的文章了--可能要翻到 ...

  8. 白话空间统计二十一:密度分析(一)

    白话空间统计二十一:密度分析(一) 密度分析这个概念其实很早就想写了,也有无数同学都问过我,虾神你能不能讲讲那些漂亮的热度图是怎么做的啊?比如下面这种: 如果说,这是互联网地图里面,最让人喜闻乐见的一 ...

  9. 新版白话空间统计(21)平均最近邻

    前面的章节里面,我们看了很多关于空间分布模式的基本原理,从这一章节开始,我们讲一些具体的工具和算法的使用. 前面我们用莫兰指数.P值.Z得分啥的,可以得出一份数据是属于离散.随机还是聚集,并且通过各种 ...

最新文章

  1. Aspose.words 书签定位
  2. SCOM2012部署系列之七:推送Windows监控代理
  3. mysql排序1 10 11_MySQL中的排序
  4. 问题:二进制数中1的个数。
  5. 【已解决】[Error] cannot pass objects of non-trivially-copyable type ‘std::string {aka class std::basic_s
  6. jquery easyui DataGrid 数据表格 属性
  7. 强化学习《基于策略 - PPO,TRPO,PPO2》
  8. Docker网络-(六)
  9. python实现knn分类_knn分类算法底层实现(python)
  10. 在 Windows 7 上安装消息队列
  11. freemarker框架 在easyui页面中处理数字 比如在页面得到1,234
  12. 绿洲因涉嫌抄袭下架;Facebook 泄露 4.19 亿条用户数据;Go 1.13 发布 | 极客头条...
  13. VMware下Linux配置局域网和外网访问(CentOS)
  14. 新版标准日本语中级_第十一课
  15. PEDOT:PSS/甘油酸胆碱([Ch][Glyce])离子液体混合材料
  16. HNUST 计算机组成原理课设
  17. github commit 时丰富多彩的图标到底是怎么弄的?这样!
  18. Mac Option 键的妙用,原来有这么多功能
  19. Eclipse插件(RCP)项目打包
  20. 基于STM32的四旋翼无人机项目(二):MPU6050姿态解算(含上位机3D姿态显示教学)

热门文章

  1. 中科院又立大功!14nm国产芯片将量产
  2. 如何同时给多段视频添加片头、转场特效
  3. 凌科芯安浅谈 数据加密技术及其应用
  4. 机器学习实战中的函数学习记录
  5. 搜狗输入法状态栏没法拖动
  6. 狼人杀服务器紧急维护中,狼人杀被炸身份怎么办?不要慌,催眠自己,你是一个大水民!...
  7. 1号小爬虫:普通的爬虫,下载百度壁纸
  8. 利用vtk+cgal+openmesh(或者第三方格式转换软件)做牙齿模型
  9. Android平台游戏开发引擎使用指引
  10. 绝地求生 服务器位置,绝地求生国服登陆界面地址入口 国服登陆界面地址在哪儿...