皮尔森(pearson)相关系数

1. 相关系数:

考察两个事物(在数据里我们称之为变量)之间的相关程度。如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:

(1)、当相关系数为0时,X和Y两变量无关系。

(2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。

(3)、当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。

相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。

通常情况下通过以下取值范围判断变量的相关强度:

相关系数     0.8-1.0     极强相关

0.6-0.8     强相关

0.4-0.6     中等程度相关

0.2-0.4     弱相关

0.0-0.2     极弱相关或无相关

 2. 皮尔森(pearson)相关系数

首先放上公式:

公式定义为: 两个连续变量(X,Y)的pearson相关性系数(Px,y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX,σY)。系数的取值总是在-1.0到1.0之间,接近0的变量被成为无相关性,接近1或者-1被称为具有强相关性。

3. 根据以上公式,python3实现代码:

def pearson(vector1, vector2):

n = len(vector1)

#simple sums

sum1 = sum(float(vector1[i]) for i in range(n))

sum2 = sum(float(vector2[i]) for i in range(n))

#sum up the squares

sum1_pow = sum([pow(v, 2.0) for v in vector1])

sum2_pow = sum([pow(v, 2.0) for v in vector2])

#sum up the products

p_sum = sum([vector1[i]*vector2[i] for i in range(n)])

#分子num,分母den

num = p_sum - (sum1*sum2/n)

den = math.sqrt((sum1_pow-pow(sum1, 2)/n)*(sum2_pow-pow(sum2, 2)/n))

if den == 0:

return 0.0

return num/den

现在,用两个向量测试一下:

vector1 = [2,7,18,88,157,90,177,570]

vector2 = [3,5,15,90,180, 88,160,580]

运行结果为0.998,可见这两组数是高度正相关的。

相似度计算方法(一) 皮尔森相关系数相关推荐

  1. 相关系数之皮尔森相关系数

    皮尔森相关系数(Pearson Correlation Coefficient) 先讲几个统计学中一些基本的数学概念: 数学期望就是平均值: 均值公式: 方差: 或者: 另一种形式: 标准差: 标准差 ...

  2. 常见的距离算法和相似度计算方法简介,重点介绍海明距离

    一个电脑小白的自我成长之路. 1.常见的距离算法 1.1欧几里得距离(Euclidean Distance) 公式如下: 标准欧氏距离的思路:现将各个维度的数据进行标准化:标准化后的值 = ( 标准化 ...

  3. 深度学习基础:一致性的评价方法(皮尔森相关系数法、Cohen‘s Kappa相关系数)

    1 什么是一致性评价 2 一致性评价(皮尔森相关系数法) 3 一致性评价(Cohen's Kappa 相关系数) 4 Cohen's Kappa计算方法 5 Cohen's Kappa取值的一致性含义

  4. python实现常用的相似度计算方法

    相似度计算是很多具体的应用了里面都会使用到的一些东西,我们学过的有很多相似度计算的方法,最初的相似度计算是为了表征向量的重合程度的,在这里最经典的就是余弦相似度了,当然使用正弦或者是正切等等三角函数也 ...

  5. 人工智能数学基础4:离差、平均差、方差、标准差、协方差、皮尔森相关系数

    一.离差(Deviation) 离差即标志变动度,又称"偏差",是观测值或估计量的平均值与真实值之间的差,是反映数据分布离散程度的量度之一,或说是反映统计总体中各单位标志值差别大小 ...

  6. 皮尔森相关系数_追逐梦想的顾咏丰_新浪博客

    皮尔森相关系数是统计学中比较重要的概念,它能够计算衡量出 2 个随机变量的相关性.在我们特征选择时特别重要,现在给出维基百科上的介绍 In statistics, the Pearson correl ...

  7. 相关性检验–Spearman秩相关系数和皮尔森相关系数

    转自: http://www.cnblogs.com/zhangchaoyang/articles/2631907.html 本文给出两种相关系数,系数越大说明越相关. 皮尔森相关系数 皮尔森相关系数 ...

  8. 常用的相似度计算方法原理及实现

    在数据分析和数据挖掘以及搜索引擎中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别.常见的比如数据分析中比如相关分析,数据挖掘中的分类聚类(K-Means等)算法,搜索引擎进行物品推荐时 ...

  9. NLP中常用的相似度计算方法

    文章目录 相似度计算方法 1. 文本距离 1.1 编辑距离(Edit Distance) 1.2 最长公共子串.最长公共子序列(Long Common Subsequence,LCS) 1.3 句向量 ...

  10. 相关性检验--Spearman秩相关系数和皮尔森相关系数

    本文给出两种相关系数,系数越大说明越相关.你可能会参考另一篇博客独立性检验. 皮尔森相关系数 皮尔森相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数(P ...

最新文章

  1. Windwos 08R2_DNS全面图文详解
  2. Linux之系统文件管理
  3. python微信接口发送消息_Python 微信公众号发送消息
  4. 老司机的应用级监控——spring?actuator
  5. 数据库-日期计算-获取年月日
  6. Dubbo 需求、架构、使用Demo
  7. 替换WordPress调用的Google前端库为360镜像的库
  8. php设计模式在框架中的应用,关于设计模式在实际场景中的应用
  9. pandas apply()函数传参,与解决TypeError: xxxx() takes 2 positional arguments but 3 were given报错
  10. 学习记录012-NFS
  11. Delphi调用C#类库.doc
  12. .Net CF 开发菜鸟笔记(PDA应用开发)
  13. 城市智能公交管理系统方案
  14. Unity Hub和Unity安装教程
  15. bio-linux软件包教程,biolinux包含软件
  16. 罕见霜降胡杨照片,太美了!
  17. bugku convert [MISC]
  18. 鼠标指针在微信界面消失怎么办?
  19. 在Ubuntu上基于wayland/weston源码构建weston桌面
  20. Java导出Excel解决乱码及导出文件打开不可读需修复的问题

热门文章

  1. JAVA调起clearcase_Eclipse集成配置管理工具ClearCase (ccrc_for_eclipse)
  2. 缺少JAVA环境,无法运行软件解决办法
  3. 电路基础-二阶(second -order) 电路
  4. Verilog——38译码器(包括仿真文件和约束文件的格式)
  5. linux 虚拟ip 漂移,keepalived 虚拟ip切换
  6. Oracle备份与恢复介绍
  7. 浴血凤凰DNF自动辅助开发教程
  8. 如何批量将mp3压缩变小?
  9. 0ffice2003安装2007兼容包不能使用的解法
  10. DirectoryEntry使用-实现域登录