CSDN的被爬虫专用声明:虾神原创,公众号\知乎:虾神说D

转发、转载和爬虫,请主动保留此声明。

前面我为了一直省事,所以直接把P-value 和Z-scores给统称成了PZ值,实际上准确翻译应该叫做P值与Z得分,我就不一一校正了,另外,PZ的大小写在文中大家也自行忽略就好。

首先,我们来看看在ArcGIS里面做空间自相关,当我们勾选了生成分析报告之后执行:

在指定的地方会生成这样一个分析报告:(注意,在这个地方,不同的版本会有一些不同,建议使用ArcGIS10.4以上版本,而且在做空间统计的时候,请把把ArcGIS设置为英文版)

打开这个分析报告,首先映入眼帘的,是这样的一个图形:

这个漂亮的正态分布曲线图,是拿来干嘛的呢?今天我们就扣着ArcGIS的这个输出报告,来聊聊ArcGIS里面的PZ值。

首先,上面这个标准的正态分布结构的图形,在ArcGIS的空间统计里面,起的作用,类似于化学分析里面的PH比色卡:

我们知道,在做酸碱度测试的时候,通常通过PH试纸+比色卡,来进行判定,从中间往两边延伸,表示酸碱的强度。理论上,自然界的物质,基本上以7为中心的泊松分布,就像下面这样:

相对于极度的强酸和极度的强碱,在自然界中的含量都是比较少的,更多的都是中性或者是弱酸或者弱碱的物质。

所以在ArcGIS里面,P、Z就类似于PH值这样一个概念,也是用来衡量空间分布模式,而上面给出的那个正态分布的图形,就是ArcGIS中的PZ值的比色卡。

在自然界里面,中心和弱酸、弱碱性物质是绝大多数,极度的强酸和极度的强碱在自然界里面出现的概率极低,多半是在实验室环境下用人工干预的手段才能合成出来——类比之下,数据领域,没有人工干预或者特殊条件产生的离散或者聚集,就是极少数数,所以:

了解这个标尺之后,我们继续来看PZ:

p值(P-Value,Probability,Pr),代表的是概率。它是反映某一事件发生的可能性大小。在空间相关性的分析中,所说的p 值表示所观测到的空间模式是由某一随机过程创建而成的概率。也就是说,你先假设,你手上的这份数据就是随机生成,没有任何模式,那么这个随机过程这个就是你的零假设。

那么现在就可以理解,为什么虾神在前面一直强调,P值越小越好了吧——如果你的P值等于1,就表示你的数据100%是由随机过程生成……当然,实际上是不可能有这么高的百分比……所以一直在强调,P必须要小于0.1,也就是表示你的随机可能性最多只能有10%,多一点都不行。

这个0.1又是什么鬼?

这个数值涉及到了统计学历史上最著名的一个“经验公式”——提出者是号称是“以一己之力独立创建了现代统计学的天才”(丹麦统计学家,统计学史的作者安德斯·哈尔德语),被尊称为“近代统计学之父”的罗纳德·艾尔默·费希尔(Ronald Aylmer Fisher 1890~1962)爵士。

罗纳德·艾尔默·费希尔爵士

罗纳德·艾尔默·费希尔爵士

Ronald Aylmer Fisher

1890~1962

剑桥大学遗传学教授、近代统计学之父

说起来,这个经验公式的出现,还有一个比较有意思的故事:

话说,某个夏天的午后,一群剑桥的教授和他们的夫人们在喝下午茶:

这时候,一位女士坚称:把茶加进奶里,或把奶加进茶里,不同的做法,会使茶的味道品起来不同。

在场的一帮理(糙)工(汉)男(子)们,对这位女士的“胡言乱语”嗤之以鼻。这怎么可能呢?他们不能想象,仅仅因为加茶加奶的先后顺序不同,茶就会发生不同的化学反应。

然而,在座的一个身材矮小、戴着厚眼镜、下巴上蓄着的短尖髯开始变灰的先生,却不这么看,他对这个问题很感兴趣。

他兴奋地说道:“让我们来检验这个命题吧!(反正闲着也是闲着)”,并开始策划一个实验。在实验中,坚持茶有不同味道的那位女士被奉上一连串的已经调制好的茶,其中,有的是先加茶后加奶制成的,有的则是先加奶后加茶制成的。

那个留着短胡须的先生就是罗纳德·艾尔默·费歇尔,当时他只有三四十岁。后来他写了一本叫《实验设计》(The Design of Experiments)的书,在书的第 2 章就描述了他的“女士品茶”实验。

他在实验中,假设这个女士没有这个分辨能力,对于奶茶鉴别完全就是靠瞎猜……那么给她端上来一杯茶,她喝完之后随口一说:这是先加奶的……如果她说对了——是不是真的表示她我们就可以拒绝这种假设,而认为她真的具有这种辨识能力呢?

可以看见,随着送上去的奶茶越来越多,她完全靠蒙对的几率就越来越少……比如我们同时准备10杯茶,那么10杯茶全部猜对的概率只有千分之一(联合概率):

虽然10杯茶,靠瞎猜完全正确的概率只有不到千分之一,但也只有正如上上面那个小(cai)黄(xu)鸭(kun)所言:我对多少算对呢?或者我(猜)对多少,算及格?

或者我们继续加大样本……

比如,加大到15杯,根据联合概率,如果15杯全部猜中的概率,只有十万分之三……

但是,不管我们给这位女士准备多少杯茶,也没有办法真正的把瞎猜这种概率降低到0……那么也就是,我们无法(完全)拒绝零假设?

统计学当然不是非黑即白的二元论,而是概率论——根据费舍尔爵士的说法:我们并不需要把概率降低到0,才表示拒绝零假设,而是降低到一定的程度就可以了,比如0.1或者0.05——这就是90%以及95%这个所谓的经验公式的来源。

之后在各行各业、各种实验、研究、论文里面,一直延续了费舍尔这个只要P值小于0.1或者0.05就拒绝了零假设这一说法,使之成为了最著名的一个经验公式。

当然,近几年,也有很多统计学家发文批判这个一刀切的0.1或者0.05

不过总体而言,要批判容易(键盘侠谁不会当),但是要提出一个能够取代它、而且还能够被广大研究者认可的概念,就不是那么容易了,所以到今天为止,大部分论文期刊,还是会接受P值的解释,并且还要求做P值相关的检验。

看完了P值,下面我们顺便看看与P值息息相关另外一个概念——Z得分。

Z得分的官方描述是:也叫标准分数(standard score),是一个分数与平均数的差再除以标准差的过程。

那么“标准差”是什么捏?在官方的解释是:“总体各单位标准值与其平均数离差平方的算术平均数的平方根”,好吧,我知道这个概念有点绕口,你就知道记住“标准差能反映一个数据集的离散程度”,就可以了。

所以,在我们的衡量标尺上面,P值和Z得分一般都是成对出现——

所以从衡量标尺上面可以看出,聚集和离散,分别位于分布的两个极端——也就是假设这份数据就是随机的,而如果你计算出来不是随机,则表示发生了小概率事件,我们拒绝了这个零假设。

一般来说,要进行数据分析,我们首先就要设立一个置信度,也就是说,你要设定你的数据,起码要有多大的可能性,被落在你期望的区间内。

所以一拿到数据,我们最先就要想,这份数据起码应该有绝大部分的值,不是随机的(也就说,是应该有规律的),这个绝大部分到底应该被量化为多少呢?这就是费舍尔当年提出来的经验公式:建议选择90%,或者95%或者99%。那么99%是最极端的情况,表示你能够完全的确认,这份数据没有任何的随机可能(只有1%的可能是随机创建的),完全的拒绝了零假设。

下表显示了不同置信度下未经校正的临界 p 值和临界 z 得分。

针对这个所谓的未经校正,当然就还有一个“错误发现率 (FDR)”工具,可以对p 值的临界点进行校正。这些校正后临界值会等于或小于上面的表所示的值。

这里的一个关键概念是,标尺所表示的正态分布中间位置的值(例如,类似 0.19 或 -1.2 的 z 得分)代表的是我们预期的结果(零假设)。但在 z 得分的绝对值很大而P值很小时(即出现在正态分布的两端),那么我们自然会去查看其中存在的不寻常现象——这也是我们需要研究的内容,为什么会出现这种极端情况?

那么实际应用中,P值和Z得分如何来应用和解读呢?聚集、离散和随机又有些什么意义呢?请听下回分解。

CSDN的被爬虫专用声明:虾神原创,公众号\知乎:虾神说D

转发、转载和爬虫,请主动保留此声明。

新版白话空间统计(11):ArcGIS中的PZ值标尺相关推荐

  1. 新版白话空间统计(12):P值的表达以及空间统计上的特性

    CSDN的被爬虫专用声明:虾神原创,公众号\知乎:虾神说D 转发.转载和爬虫,请主动保留此声明. 上篇文章简单介绍了P值与Z得分的一些基本概念,大家其实也都知道,P值和Z得分其实是有一定的相应关系的, ...

  2. 新版白话空间统计(21)平均最近邻

    前面的章节里面,我们看了很多关于空间分布模式的基本原理,从这一章节开始,我们讲一些具体的工具和算法的使用. 前面我们用莫兰指数.P值.Z得分啥的,可以得出一份数据是属于离散.随机还是聚集,并且通过各种 ...

  3. 新版白话空间统计(1):前言与地理学第一定律

    CSDN的被爬虫专用声明:虾神原创,公众号\知乎:虾神说D 转发.转载和爬虫,请主动保留此声明. 前言 2015年7月27日,虾神在csdn博客频道,首次放出第一篇白话空间统计,到今天已经4年多了. ...

  4. arcgis设置nodata值_新版白话空间统计(6):在ArcGIS中实现莫兰指数计算

    上一篇简单说了一下莫兰指数的计算原理和计算公式,如果是学生或者基础研究者,鼓励好好的学习一下手算或者编程计算,所谓的基础不牢,地动山摇--但是对于工程界和应用人士,特别是非基础学,重复造轮子是没有啥意 ...

  5. 新版白话空间统计(6):在ArcGIS中实现莫兰指数计算

    CSDN的被爬虫专用声明:虾神原创,公众号\知乎:虾神说D 转发.转载和爬虫,请主动保留此声明. 上一篇简单说了一下莫兰指数的计算原理和计算公式,如果是学生或者基础研究者,鼓励好好的学习一下手算或者编 ...

  6. 新版白话空间统计(25):方向分布(标准差椭圆)

    方向分布是虾神最喜欢的一个空间统计工具,也是最简单明了,但是用处很广的一个 点模式的分析中,一般会考察如下五种内容: 1.点的疏密,包括点数据的分布探索,是否一致.均匀或者不均匀. 2.点的方位,包括 ...

  7. 新版白话空间统计(22):中心要素

    CSDN的被爬虫专用声明:虾神原创,公众号\知乎:虾神说D 转发.转载和爬虫,请主动保留此声明. 美国著名统计学家,统计学史专家,芝加哥大学统计学院教授Stephen M. Stigler(斯蒂芬.斯 ...

  8. 新版白话空间统计(15)空间关系概念化之距离

    CSDN的被爬虫专用声明:虾神原创,公众号\知乎:虾神说D 转发.转载和爬虫,请主动保留此声明. 首先祭出镇文神图: 空间统计学最核心的,就是对空间区域分布特性进行研究,所以要做任何空间分布分析,就需 ...

  9. 新版白话空间统计(16)空间关系概念化之固定距离

    CSDN的被爬虫专用声明:虾神原创,公众号\知乎:虾神说D 转发.转载和爬虫,请主动保留此声明. 镇文神图: 中学物理第一课就是参照物的说明,空间统计里面的各种分析,有着天然的参照物,也就是物理存在的 ...

  10. 新版白话空间统计(13):随机的力量

    CSDN的被爬虫专用声明:虾神原创,公众号\知乎:虾神说D 转发.转载和爬虫,请主动保留此声明. 前文再续,书接上一回,先请出本节镇文神图: 看到这张图,可能很多同学会问,随机不是没有分析的意义么?你 ...

最新文章

  1. ASP.NET中App_Code,App_Data等文件夹的作用
  2. 为什么局部内部类和匿名内部类只能访问 final 的局部变量?
  3. 使用Screen使SSH关闭后Meteor服务继续运行
  4. readfile读取串口数据_西门子PLC-1200-串口Modbus RTU通讯实例
  5. C语言试题八十一之利用递归函数调用方式,将所输入的5个字符,相反顺序打印
  6. jzoj3236-矮人排队【权值线段树】
  7. spring中aop事务
  8. 变量命名 – 匈利亚命名法则 - C语言零基础入门教程
  9. java制作图形界面数据库_java图形界面以及链接数据库
  10. 给来英国的女士或先生一点建议,同样关于行李.
  11. Docker搭建WebLogic服务器
  12. nuxt webpack配置css,vuecli或nuxt用Webpack的优雅ProgressBar(webpackBar)
  13. 关于英特尔物联网你不可不知的10个最新动向
  14. 心电图分析软件_狼疮性心肌炎39例临床特点及预后分析
  15. dubbo源代码编译打包错误解决
  16. 前沿科技赋能教育,掌门优课创新教学体验
  17. 鸿蒙系统预计什么时候上市,鸿蒙系统什么时候上市?鸿蒙系统什么时候用于手机(图文)...
  18. 鸿蒙 微内核 什么意思,鸿蒙系统所说的「微内核」,具体是什么?
  19. asdfasdfsd阿萨德发撒的发撒的发撒的发
  20. pf与ckf_基于CKF-PF算法在高速动车组定位中的应用研究

热门文章

  1. Word表格之VBA知识
  2. delphi IDE插件 cnpack 使用记录
  3. android小米手机变慢,小米手机出现变慢卡顿现象怎么办 教你如何让小米手机跑的更快的方法...
  4. java 计算器 junit测试_Java—Junit单元测试
  5. MT4 CRM 源码
  6. python爬虫实战万年历
  7. Acer 4750 安装黑苹果_超详细安装黑苹果教程
  8. 数字通信技术知识点二
  9. Latex插入超链接
  10. 自媒体如何一步步变成臭要饭的(其二)