相似度计算方法(一) 皮尔森相关系数
皮尔森(pearson)相关系数
1. 相关系数:
考察两个事物(在数据里我们称之为变量)之间的相关程度。如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:
(1)、当相关系数为0时,X和Y两变量无关系。
(2)、当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。
(3)、当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。
相关系数的绝对值越大,相关性越强,相关系数越接近于1或-1,相关度越强,相关系数越接近于0,相关度越弱。
通常情况下通过以下取值范围判断变量的相关强度:
相关系数 0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关
2. 皮尔森(pearson)相关系数
首先放上公式:
公式定义为: 两个连续变量(X,Y)的pearson相关性系数(Px,y)等于它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX,σY)。系数的取值总是在-1.0到1.0之间,接近0的变量被成为无相关性,接近1或者-1被称为具有强相关性。
3. 根据以上公式,python3实现代码:
def pearson(vector1, vector2):
n = len(vector1)
#simple sums
sum1 = sum(float(vector1[i]) for i in range(n))
sum2 = sum(float(vector2[i]) for i in range(n))
#sum up the squares
sum1_pow = sum([pow(v, 2.0) for v in vector1])
sum2_pow = sum([pow(v, 2.0) for v in vector2])
#sum up the products
p_sum = sum([vector1[i]*vector2[i] for i in range(n)])
#分子num,分母den
num = p_sum - (sum1*sum2/n)
den = math.sqrt((sum1_pow-pow(sum1, 2)/n)*(sum2_pow-pow(sum2, 2)/n))
if den == 0:
return 0.0
return num/den
现在,用两个向量测试一下:
vector1 = [2,7,18,88,157,90,177,570]
vector2 = [3,5,15,90,180, 88,160,580]
运行结果为0.998,可见这两组数是高度正相关的。
相似度计算方法(一) 皮尔森相关系数相关推荐
- 相关系数之皮尔森相关系数
皮尔森相关系数(Pearson Correlation Coefficient) 先讲几个统计学中一些基本的数学概念: 数学期望就是平均值: 均值公式: 方差: 或者: 另一种形式: 标准差: 标准差 ...
- 常见的距离算法和相似度计算方法简介,重点介绍海明距离
一个电脑小白的自我成长之路. 1.常见的距离算法 1.1欧几里得距离(Euclidean Distance) 公式如下: 标准欧氏距离的思路:现将各个维度的数据进行标准化:标准化后的值 = ( 标准化 ...
- 深度学习基础:一致性的评价方法(皮尔森相关系数法、Cohen‘s Kappa相关系数)
1 什么是一致性评价 2 一致性评价(皮尔森相关系数法) 3 一致性评价(Cohen's Kappa 相关系数) 4 Cohen's Kappa计算方法 5 Cohen's Kappa取值的一致性含义
- python实现常用的相似度计算方法
相似度计算是很多具体的应用了里面都会使用到的一些东西,我们学过的有很多相似度计算的方法,最初的相似度计算是为了表征向量的重合程度的,在这里最经典的就是余弦相似度了,当然使用正弦或者是正切等等三角函数也 ...
- 人工智能数学基础4:离差、平均差、方差、标准差、协方差、皮尔森相关系数
一.离差(Deviation) 离差即标志变动度,又称"偏差",是观测值或估计量的平均值与真实值之间的差,是反映数据分布离散程度的量度之一,或说是反映统计总体中各单位标志值差别大小 ...
- 皮尔森相关系数_追逐梦想的顾咏丰_新浪博客
皮尔森相关系数是统计学中比较重要的概念,它能够计算衡量出 2 个随机变量的相关性.在我们特征选择时特别重要,现在给出维基百科上的介绍 In statistics, the Pearson correl ...
- 相关性检验–Spearman秩相关系数和皮尔森相关系数
转自: http://www.cnblogs.com/zhangchaoyang/articles/2631907.html 本文给出两种相关系数,系数越大说明越相关. 皮尔森相关系数 皮尔森相关系数 ...
- 常用的相似度计算方法原理及实现
在数据分析和数据挖掘以及搜索引擎中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别.常见的比如数据分析中比如相关分析,数据挖掘中的分类聚类(K-Means等)算法,搜索引擎进行物品推荐时 ...
- NLP中常用的相似度计算方法
文章目录 相似度计算方法 1. 文本距离 1.1 编辑距离(Edit Distance) 1.2 最长公共子串.最长公共子序列(Long Common Subsequence,LCS) 1.3 句向量 ...
- 相关性检验--Spearman秩相关系数和皮尔森相关系数
本文给出两种相关系数,系数越大说明越相关.你可能会参考另一篇博客独立性检验. 皮尔森相关系数 皮尔森相关系数(Pearson correlation coefficient)也叫皮尔森积差相关系数(P ...
最新文章
- Windwos 08R2_DNS全面图文详解
- Linux之系统文件管理
- python微信接口发送消息_Python 微信公众号发送消息
- 老司机的应用级监控——spring?actuator
- 数据库-日期计算-获取年月日
- Dubbo 需求、架构、使用Demo
- 替换WordPress调用的Google前端库为360镜像的库
- php设计模式在框架中的应用,关于设计模式在实际场景中的应用
- pandas apply()函数传参,与解决TypeError: xxxx() takes 2 positional arguments but 3 were given报错
- 学习记录012-NFS
- Delphi调用C#类库.doc
- .Net CF 开发菜鸟笔记(PDA应用开发)
- 城市智能公交管理系统方案
- Unity Hub和Unity安装教程
- bio-linux软件包教程,biolinux包含软件
- 罕见霜降胡杨照片,太美了!
- bugku convert [MISC]
- 鼠标指针在微信界面消失怎么办?
- 在Ubuntu上基于wayland/weston源码构建weston桌面
- Java导出Excel解决乱码及导出文件打开不可读需修复的问题
热门文章
- JAVA调起clearcase_Eclipse集成配置管理工具ClearCase (ccrc_for_eclipse)
- 缺少JAVA环境,无法运行软件解决办法
- 电路基础-二阶(second -order) 电路
- Verilog——38译码器(包括仿真文件和约束文件的格式)
- linux 虚拟ip 漂移,keepalived 虚拟ip切换
- Oracle备份与恢复介绍
- 浴血凤凰DNF自动辅助开发教程
- 如何批量将mp3压缩变小?
- 0ffice2003安装2007兼容包不能使用的解法
- DirectoryEntry使用-实现域登录