目录

一,相关分析概述

1,什么叫相关分析?

2,相关系数:

二,皮尔森相关系数

1,连续变量的相关分析

2,协方差:

3,pearson相关系数

4,相关系数的显著性检验:

三,斯皮尔曼等级相关

四,肯德尔和谐系数

实例1:同一评价者无相同等级评定时

实例2:同一评价者有相同等级评定时

肯德尔和谐系数的显著性检验

五,质量相关分析

1,二列相关:

1)二列相关的使用条件:

2)公式:

3)例子:

2,点二列相关:

例子:

六,偏相关与复相关

1,列联相关系数:

例子:

2,偏相关分析:

1)定义:

2)性质:

3,复相关系数:

一,相关分析概述

1,什么叫相关分析?

●衡量事物之间或称变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程。
●比如,家庭收入和支出、一个人所受教育程度与其收入、子女身高和父母身高等

2,相关系数:

●衡量变量之间相关程度的一个量值
●相关系数r的数值范围是在-1到+1之间
●相关系数r的正负号表示变化方向。“+”号表示变化方向一致,即正相关;“-”号表示变化方向相反,即负相关
●r的绝对值表示变量之间的密切程度(即强度)。绝对值越接近1,表示两个变量之间关系越密切;越接近0,表示两个变量之间关系越不密切
●相关系数的值,仅仅是一个比值。它不是由相等单位度量而来(即不等距), 也不是百分比,因此,不能直接作加、减、乘、除运算
相关系数只能描述两个变量之间的变化方向及密切程度,并不能揭示两者之间的内在本质联系,即存在相关的两个变量,不一定存在因果关系

二,皮尔森相关系数

1,连续变量的相关分析

●连续变量即数据变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小。如“年龄”、“收入”、 “成绩”等变量。
●当两个变量都是正态连续变量,而且两者之间呈线性关系时,通常用Pearson相关系数来衡量

2,协方差:

协方差是一个反映两个随机变量相关程度的指标,如果-个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值

虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但是协方差值的大小并不能很好地度量两个随机变量的关联程度。

在二维空间中分布着--些数据,我们想知道数据点坐标X轴和Y轴的相关程度,如果X与Y的相关程度较小但是数据分布的比较离散,这样会导致求出的协方差值较大,用这个值来度量相关程度是不合理的

3,pearson相关系数

为了更好的度量两个随机变量的相关程度,引入了Pearson相关系数,其在协方差的基础上除以了两个随机变量的标准差

pearson是-一个介于-1和1之间的值,当两个变量的线性关系增强时,相关系数趋于1或-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;如果一个变量增大, 另一个变量却减小,表明它们之间是负相关的,相关系数小于0;如果相关系数等于0,表明它们之间不存在线性相关关系。

4,相关系数的显著性检验:

三,斯皮尔曼等级相关

当测量得到的数据不是等距或等比数据,而是具有等级顺序的数据;或者得到的数据是等距或等比数据,但其所来自的总体分布不是正态的,不满足求皮尔森相关系数(积差相关)的要求。这时就要运用等级相关系数。

计算得出,他们的皮尔森相关系数r=1,P-vlaue=0, 从以上可以直观看出,如果两个基因的表达量呈线性关系,则具有显著的皮尔森相关性。

以上是两个基因呈线性关系的结果。如果两者呈非线性关系,例如幂函数关系(曲线关系),那又如何呢?我们再试试。

两个基因A、D,他们的关系是D=A^10,在8个样本中的表达量值如下:

可以看到,基因A、D相关系数,无论数值还是显著性都下降了。皮尔森相关系数是一种线性相关 系数,因此如果两个变量呈线性关系的时候,具有最大的显著性。对于非线性关系(例如A、D的幂函数关系),则其对相关性的检测功效会下降。这时我们可以考虑另外-一个相关系数计算方法:斯皮尔曼等级相关。

当两个变量值以等级次序排列或以等级次序表示时,两个相应总体并不一定呈正态分布,样本容量也不一定大于30,表示这两变量之间的相关,称为Spearman等级相关。

简单点说,就是无论两个变量的数据如何变化,符合什么样的分布,我们只关心每个数值在变量内的排列顺序。如果两个变量的对应值,在各组内的排序顺位是相同或类似的,则具有显著的相关性。

这里斯皮尔曼等级相关的显著性显然高于皮尔森相关。这是因为虽然两个基因的表达量是非线性关系,但两个基因表达量在所有样本中的排列顺序是完全相同的,因为具有极显著的斯皮尔曼等级相关性。

四,肯德尔和谐系数

当多个(两个以上)变量值以等级次序排列或以等级次序表示,描述这几个变量之间的一致性程度的量,称为肯德尔和谐系数。它常用来表示几个评定者对同一组学生成绩用等级先后评定多次之间的一致性程度。

●N-被评的对象数;.
●K-评分者人数或评分所依据的标准数;
●S-每个被评对象所评等级之和Ri与所有这些和的平均数的离差平方和
 

●mi为第i个评价者的评定结果中有重复等级的个数。
●nij为第i个评价者的评定结果中第j个重复等级的相同等级数。
●对于评定结果无相同等级的评价者,Ti=0,因此只须对评定结果有相同等级的评价者计算Ti。

实例1:同一评价者无相同等级评定时

某校开展学生小论文比赛,请6位教师对入选的6篇论文评定得奖等级,结果如下表所示,试计算6 位教师评定结果的kandall和谐系数。

实例2:同一评价者有相同等级评定时

3名专家对6篇心理学论文的评分经等级转换如下表所示,试计算专家评定结果的肯德尔和谐系数

肯德尔和谐系数的显著性检验

评分者人数(k)在3-20之间,被评者(N)在3-7之间时,可查《肯德尔和谐系数(W)显著性临界值表》,检验W是否达到显著性水平。若实际计算的S值大于k、N相同的表内临界值,则W达到显著水平。
当K=6 N=6,查表得检验水平分别为a = 0.01,a= 0.05的临界值各为S0.01 = 282.4,S0.05=221.4,均小于实算的S=546,故W达到显著水平,认为6位教师对6篇论文的评定相当一致。

当被评者n>7时,则可用如下的x2统计量对W是否达到显著水平作检验。

五,质量相关分析

质量相关是指一个变量为质(属性值,更多的可能是离散的),另一个变量为量(连续值),这两个变量之间的相关。如智商、学科分数、身高、 体重等是表现为量的变量,男与女、 优与劣、及格与不及格等是表现为质的变量。也就是说,将连续和离散的放到一起分析。

质与量的相关主要包括二列相关、点二列相关、多系列相关。

1,二列相关:

当两个变量都是正态连续变量.其中一个变量被人为地划分成二分变量(如按一定标推将属于正态连续变量的学科考试分数划分成及格与不及格,录取与未录取,把某一体育项目测验结果划分成通过与未通过,达标与末达标,把健康状况划分成好与差,等等), 表示这两个变量之间的相关,称为二列相关。

1)二列相关的使用条件:

●两个变量都是连续变量,且总体呈正态分布,或总体接近正态分布,至少是单峰对称分布。
●两个变量之间是线性关系。
●二分变量是人为划分的,其分界点应尽量靠近中值。
●样本容量应当大于80。

2)公式:

P表示二分变量中某一类别频数的比率
q表示二分变量中另一类别频数的比率
σ表示连续变量的标准差
Y表示正态曲线下与p相对应的纵线高度

3)例子:

2,点二列相关:

当两个变量其中一个是正态连续性变量,另一个是真正的二二分名义变量(例如,男与女,已婚和未婚,色盲与非色盲,生与死,等等),这时,表示这两个变量之间的相关,称为点二列相关。

例子:

六,偏相关与复相关

两个变量都是按质划分成几种类别,表示这两个变量之间的相关称为品质相关。
如,一个变量按性别分成男与女,另一个变量按学科成绩分成及格与不及格;又如,一个变量按学校类别分成重点及非重点,另一个变量按学科成绩分成优、良、中、差,等等。

1,列联相关系数:

例子:

2,偏相关分析:

1)定义:

在多要素所构成的地理系统中,先不考虑其它要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。

2)性质:

●偏相关系数分布的范围在-1到1之间
●偏相关系数的绝对值越大,表示其偏相关程度越大
●偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即R1,23>=|r12,3|

3,复相关系数:

●反映几个要素与某-一个要素之间的复相关程度。复相关系数介于0到1之间。
●复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1, 表示完全相关;复相关系数为0, 表示完全无关。
●复相关系数必大于或至少等于单相关系数的绝对值。

机器学习数学基础十:相关分析相关推荐

  1. 视频教程-机器学习数学基础--概率论与数理统计视频教学-机器学习

    机器学习数学基础--概率论与数理统计视频教学 北京大学计算机技术及应用专业,从事IT行业十几年,主要从事java.Linux.手机应用开发.人工智能神经网络方面的工作.曾在中国数码集团.厦门三五互联集 ...

  2. 机器学习笔记十四:随机森林

    在上一篇机器学习笔记十三:Ensemble思想(上)中,简要的提了一下集成学习的原理和两种主要的集成学习形式.  而在这部分要讲的随机森林,就算是其中属于bagging思路的一种学习方法.为了篇幅,b ...

  3. 开发者成功使用机器学习的十大诀窍

     开发者成功使用机器学习的十大诀窍 发表于6小时前| 330次阅读| 来源InfoWorld| 0 条评论| 作者Alexander Gray 机器学习开发者人工智能计算机视觉 width=&qu ...

  4. 斯坦福大学机器学习第十课“应用机器学习的建议(Advice for applying machine learning)”

    斯坦福大学机器学习第十课"应用机器学习的建议(Advice for applying machine learning)" 斯坦福大学机器学习斯坦福大学机器学习第十课"应 ...

  5. 【本站作品】机器学习数学基础专辑

    本文推荐一份机器学习数学基础专辑,在线阅读地址:(数学基础专辑), 同时文末提供下载. 机器学习,需要一定的数学基础,也需要一定的代码能力.机器学习从业者数学基础不扎实,只会用一些工具和框架,相当于某 ...

  6. Spark机器学习实战 (十二) - 推荐系统实战

    0 相关源码 将结合前述知识进行综合实战,以达到所学即所用.在推荐系统项目中,讲解了推荐系统基本原理以及实现推荐系统的架构思路,有其他相关研发经验基础的同学可以结合以往的经验,实现自己的推荐系统. 1 ...

  7. 机器学习(十九)——PageRank算法, KNN, loss function详解

    http://antkillerfarm.github.io/ PageRank算法 概述 在PageRank提出之前,已经有研究者提出利用网页的入链数量来进行链接分析计算,这种入链方法假设一个网页的 ...

  8. 机器学习(十四)——协同过滤的ALS算法(2)、主成分分析

    http://antkillerfarm.github.io/ Kendall秩相关系数(Kendall rank correlation coefficient) 对于秩变量对(xi,yi),(xj ...

  9. ML:从工程化思维分析—机器学习团队十大角色的简介(背景/职责/产出物):产品经理、项目经理、业务咨询顾问、数据科学家、ML研究员、数据工程师、ML工程师、DevOps/软件开发/交付工程师

    ML:从工程化思维分析-机器学习团队十大角色的简介(背景/职责/产出物):产品经理.项目经理.业务咨询顾问.数据科学家.ML研究员.数据工程师.ML工程师.DevOps/软件开发/交付工程师 背景:在 ...

  10. 猪猪的机器学习(十九)卷积神经网络

    卷积神经网络 作者:樱花猪 摘要: 本文为七月算法(julyedu.com)12月机器学习第十九次课在线笔记.卷积神经网络(Convolutional Neural Network,CNN)是一种前馈 ...

最新文章

  1. Xcode10新变化
  2. [Linux实用工具]Ubuntu环境下SSH的安装及使用
  3. struts2配置文件(简单)
  4. 路由器有线优先吗_路由器要定时按这个键,很多人不懂,难怪网速又慢又卡!...
  5. Ext JS 5 beta版发布
  6. 数学建模2 数据预处理
  7. python基础-python函数参数为print语句时的输出
  8. java se 6 mac_Mac OS X “打开xx软件, 你需要一个Java SE 6运行环境”问题解决
  9. 洛谷OJ P1802 5倍经验日 动态规划
  10. linux sqlplus dmp文件,sqlplus导入dmp数据库
  11. 计算机科学与技术 未来,浅析计算机科学与技术的未来发展趋势
  12. 为什么阿里云域名解析48小时还没有生效?
  13. 【lzy学习笔记-dive into deep learning】数学预备 2.5-2.7
  14. 留着以后慢慢做的计算几何(题表)
  15. 科研教育「双目视觉技术」首选!维视MV-VS220双目立体视觉系统开发平台
  16. Pr 入门系列之十三:添加字幕
  17. 全倒装超微间距COB(COB微间距)显示主导新型显示技术。
  18. 服务器系统重启和断电重启,服务器设置断电重启吗
  19. vue项目pc端使用rem进行适配 (lib-flexible+postcss-pxtorem)
  20. javaEE学习总结

热门文章

  1. C语言实现约分最简分式
  2. 北京高级项目经理市场需求
  3. oracle_身份证有效性校验
  4. Java个人网站设计与实现毕业
  5. java中文转英文_eclipse英文转中文怎么设置 eclipse中英文切换图文教程
  6. 学习是对自己最好的投资
  7. World从任意页开始设置页码详细教程
  8. 2019-11-29奈奎斯特和香农定理
  9. 三角形的几何公式大全_解析几何(椭圆)常见二级结论92条附详细证明
  10. 配眼镜走过的那些坑。