要说P、Z之前(本文的P、Z写法,请忽略大小写),我们先看看一个中学化学的概念:PH值。

另外,还要纠正一个说法,p是一个值(p value),而z是一个得分(z scores),上篇文章中,称谓出错了。

就像上面那个PH试纸的标尺,从中间往两边延伸,表示酸碱的强度。理论上,自然界的物质,基本上以7为中心的正态分布,就像下面这样:

相对于极度的强酸和极度的强碱,在自然界中的含量都是比较少的,更多的都是中性或者是弱酸或者弱碱的物质。

PH值就是用来度量酸碱度的东东,那么我们今天要说的P、Z就类似于PH值这样一个概念,也是用来衡量空间分布模式,而且最关键的,它的值也有一个和PH试纸一样的参考标尺。

首先看看,空间分布的模式,一般来说,有三种,分别是离散的、随机的、和聚合的。

离散的概念就是指观测的每个数据之间的差异程度,离散程度越大,差异性就越大。

聚合与离散正好相反,表示在一定区域内的相关程度,就是聚合程度越大,相关性就越大。

随机就不用说了,纯粹的无模式,你既不能从随机数据中获取结论,也发现不了规律和模式。

拿到数据之后,我们都要进行零假设,然后验证这份数据是不是具有随机模式,如果有很大的概率是随机模式,那么这份数据的可分析性,基本上就微乎其微了(比如布朗运动的运动规律,估计没有哪个人会无聊的去做研究,一方面根本就研究不出什么结果来嘛,另一方面是随机结果的分析也不具有可重现性)。

P值和Z得分分别表什么呢?

p值(P-Value,Probability,Pr),代表的是概率。它是反映某一事件发生的可能性大小。在空间相关性的分析中,p值表示所观测到的空间模式是由某一随机过程创建而成的概率。比如我说,你计算出来的p值是1,那就表示你用于计算的这份数据,100%是随机生成的了(当然,不可能是1的,0.5以上就也不得了)。如果是0.1,就表示只有10%的可能性是随机生成的结果。

这样看来,p值是越小越好,但是小到什么样的程度才会最好呢?后面我们会就这个问题继续讨论。

z得分(Zscores)表示标准差的倍数(standarddeviations)。

先看看“标准差”是什么,在官方的解释是:“总体各单位标准值与其平均数离差平方的算术平均数的平方根”,好吧,我知道这个概念有点绕口,你就知道记住“标准差能反映一个数据集的离散程度”,就可以了。

那么z得分,就是标准差的倍数(有正负之分),比如z得分是+2.5,就表示你的数据计算出来,得到的结果是标准差的正2.5倍。反之,如果你算出来的是-2.5,那么就表示你的结果是标准差的负2.5倍。

P值和Z得分,一般都是一起出现的,如下图所示:

可以看见,p值与z值是有相关性的。上面这个标尺就是p值和z得分的"PH试纸标准比色卡"。

按照这个分布趋势,我们可以看出,数据高度聚集和高度离散,都是小概率的事件。如果你计算出来的p值和z得分,被分布在了两端,就说明你的数据出现随机模式的概率非常低了。

一般来说,要进行数据分析,我们首先就要设立一个置信度,也就是说,你要设定你的数据,起码要有多大的可能性,被落在你期望的区间内。

如,一拿到数据,我们最先就要想,这份数据起码应该有绝大部分的值,不是随机的(也就说,是应该有规律的),这个绝大部分到底应该被量化为多少呢?一般来说,我们会选择90%,或者95%或者99%。那么99%是最极端的情况,表示你能够完全的确认,这份数据没有任何的随机可能(只有1%的可能是随机创建的),完全的接受了零假设。

下表显示了不同置信度下未经校正的临界 p 值和临界 z 得分。

z 得分(标准差)

p 值(概率)

置信度

< -1.65 或 > +1.65

< 0.10

90%

< -1.96 或 > +1.96

< 0.05

95%

< -2.58 或 > +2.58

< 0.01

99%

“未经校正”就所谓的“经验参数”,当然还有一个“错误发现率(FDR)”工具,可以对p 值的临界点进行校正。这些校正后临界值会等于或小于上面的表所示的值。

对于这个FDR工具,先挖个坑,以后填。

最后,我们最后来解读一份数据

这个是通过ArcMap的全局莫兰指数计算出来的结果,我们暂时跳过期望指数和方差,直接看我们这几天讲的内容。

莫兰指数是大于0.7,z得分是大于1.96,p值为大于0.04小于0.05,对照上面那个对比标尺,所以就能得出以下的结果:

1、莫兰指数是正数,而且大于0.7,就表示这份数据具有空间正相关性,数据集的用于分析的值与空间聚集度成正比。

2、p值小于0.05,所以本数据是随机生成的概率只有5%(95%的置信度)。

3、z得分大于1.96,说明这份数据的呈现了明显的聚类特征。

那么总体说,p值代表数据来源的可靠性,z得分和莫兰指数都表示此数据有明显的规律。

最后来看看,这是一份什么数据:

这是北京市2013年9月的房价数据(友情感谢小强同学提供)。这份数据是通过爬虫从网络上扒下来的,自然不会是随机生成,而且房价的数据确实是明显有聚集特性和空间正相关的。

这样,通过计算,验证了我们的猜测和观点。

关于P值和Z得分的内容,后面还有,未完待续。

前面的文章,可以先关注虾神的公众号,然后查看历史信息就行。或者点击原文链接,去看虾神我的博客。

白话空间统计之四:P值和Z得分(中)相关推荐

  1. arcgis设置nodata值_新版白话空间统计(6):在ArcGIS中实现莫兰指数计算

    上一篇简单说了一下莫兰指数的计算原理和计算公式,如果是学生或者基础研究者,鼓励好好的学习一下手算或者编程计算,所谓的基础不牢,地动山摇--但是对于工程界和应用人士,特别是非基础学,重复造轮子是没有啥意 ...

  2. 新版白话空间统计(6):在ArcGIS中实现莫兰指数计算

    CSDN的被爬虫专用声明:虾神原创,公众号\知乎:虾神说D 转发.转载和爬虫,请主动保留此声明. 上一篇简单说了一下莫兰指数的计算原理和计算公式,如果是学生或者基础研究者,鼓励好好的学习一下手算或者编 ...

  3. 【虾神白话空间统计】笔记:置信度、零假设、PZ值、随机分布

    以下内容摘录节选学习自虾神专栏 很重要的一个概念:在空间统计中,随机和均匀经常是一个意思 一个随机抽样的例子 新版白话空间统计(9):置信度的初探 这里面讲经研究,有72%的男生喜欢打篮球,然后做个随 ...

  4. 新版白话空间统计(12):P值的表达以及空间统计上的特性

    CSDN的被爬虫专用声明:虾神原创,公众号\知乎:虾神说D 转发.转载和爬虫,请主动保留此声明. 上篇文章简单介绍了P值与Z得分的一些基本概念,大家其实也都知道,P值和Z得分其实是有一定的相应关系的, ...

  5. 白话空间统计十九:热点分析(上)

    白话空间统计十九:热点分析(上) 哈罗,各位好,话说虾神已经消失很久了,很多人在问是不是停止更新了?那肯定是不可能的,虾神发下宏愿,要把白话空间统计写完的.只不过这段时间遇上各种加班和一年一度的用户大 ...

  6. 新版白话空间统计(21)平均最近邻

    前面的章节里面,我们看了很多关于空间分布模式的基本原理,从这一章节开始,我们讲一些具体的工具和算法的使用. 前面我们用莫兰指数.P值.Z得分啥的,可以得出一份数据是属于离散.随机还是聚集,并且通过各种 ...

  7. moran指数 r语言_白话空间统计之二十五:空间权重矩阵(四)R语言中的空间权重矩阵(2):不同空间关系对莫兰指数的影响...

    原标题:白话空间统计之二十五:空间权重矩阵(四)R语言中的空间权重矩阵(2):不同空间关系对莫兰指数的影响 上一篇,讲了R语言中的空间权重矩阵的结构,这一节讲讲R语言里面空间权重矩阵的自定义. 与Ar ...

  8. 白话空间统计二十七:统计学七支柱之空间统计版本(二)聚合(2)

    还记得a long long time ago 的青葱岁月--作为学渣的虾神最怕的就是各种(不擅长)的考试,虾神读书时候有个习惯,就拿到试卷之后,第一时间会把试卷翻到最后一页,去看最后一道大题.然后以 ...

  9. 二进制空间权重矩阵_白话空间统计之二十五:空间权重矩阵(三)解构空间权重矩阵...

    原标题:白话空间统计之二十五:空间权重矩阵(三)解构空间权重矩阵 中国古代就有"天圆地方"一说,所谓的"方"就是所谓的矩阵-- 在军事上面,最为讲究就是团体的力 ...

最新文章

  1. 初探团队基于session的探索性测试
  2. MongoDB 2.5 版本将提供新的查询引擎
  3. “猜你喜欢” — 浅谈内容分发中的推荐系统
  4. C++学习笔记(三)
  5. Erlang消息传递-tut15.erl
  6. golang的sync包例子
  7. 格雷码、二进制码、BCD编码
  8. extjs中为什么使用“var me = this”?
  9. (15)VHDL测试激励编写(复位)
  10. 擷取 GridView 資料列的欄位值集合
  11. 百度api翻译html,帮助文档首页
  12. Proteus器件查找
  13. Vue概述和各种前端框架
  14. 知乎热议20年科研怪状:为何论文创新性越强越难发表,跟风修修补补反而更容易发?
  15. 详讯:微软宣布446亿美元收购雅虎
  16. TI-RTOS---Semaphores
  17. 餐厅自助点餐系统测试
  18. 最新版gg服务器框架安装器,GG服务框架安装器最新版本
  19. 谋退市,前程无忧要新开始?
  20. AToken每日简讯 1.11 星期五

热门文章

  1. python编写arcgis脚本教程_ArcGIS二次开发(1)arcpy简介及编写一个自己的脚本
  2. 电子计算机按数字错乱,笔记本电脑数字键盘错乱怎么办 笔记本键盘按键错乱恢复方法...
  3. 计算机组成原理——总线控制(总线判优控制、总线通信控制)
  4. 2023年天猫618跨店满减活动时间和天猫618预售活动时间介绍
  5. ENVI5.3.1Landsat 8影像基于单窗算法和辐射传输方程进行地表温度反演
  6. 内网web页面集成海康威视网络摄像头
  7. 以太网电路中网络变压器集成共模电感,连接方向的选择
  8. fedora15中yum安装卸载libreoffice中文版
  9. BlackBerry 快捷键
  10. h1283 linux内核,复苏老客 » 发布一个开博尔H1283双核固件