一、相关关系和相关系数

世上除了因果关系,还有相关关系。

有一个叫“相关系数”的指标来量化两个事物之间的相关程度。

其中相关系数用“r”表示,取值范围介于-1和1之间。

当(X,Y)正相关的时候,r=1;当(X,Y)负相关的时候,r=-1;当(X,Y)不相关的时候,r=0。

当然一般的线性相关有更严格的划分:r|<0.3 不存在线性关系

0.3<|r|<0.5 低度线性关系

0.5<|r|<0.8 显著线性关系

|r|>0.8 高度线性关系

二、相关性和假设检验

有指标来衡量两者之间的相关程度,不代表能够去衡量相关程度。

因引入两个概念:

现在,针对我们分析的两组数据(X,Y)(两组数据被称为抽样),我们的疑问来了:

抽样的(X,Y)是否可以正确反应总体的情况呢?

这里涉及:假设检验。

具体操作如下:

零假设H0:总体的数据不呈相关性(相关系数为0),并先认为H0正确

备选假设H1:总体的数据呈现相关性(相关系数不为0)

引入一个指标:显著性水平p,一般将其设定为0.05或者0.01

当p<0.05,拒绝原假设,备选假设正确;

当p>0.05,原假设正确。

所以,在进行相关性分析实验的之前,我们需要分两步走:

1.进行假设检验,获得p值<0.05,得到结论:总体的数据呈现相关性

2.进行相关性分析,得到r值

如果p值>0.05(或者0.01),则实验失败,抽样数据无法反应整体情况。不管r值表现如何都是偶然事件。

只有在p值<0.05(或者0.01)的前提下,才可以参考r值,进而判断相关程度。

三、兼谈假设检

假设检验的3种类型

假设检验的套路:

四、利用Python进行相关性分析

判定两者相关的方式有两种:图形观测法:通过绘制散点图判断两者是否存在一定相关关系

科学计算法:通过计算相关性系数r

我们用第二种

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from scipy.stats import kstest

from scipy import stats

#读入数据

data=pd.read_csv('http://jse.amstat.org/datasets/normtemp.dat.txt',header=None,sep='\s+',names=['Temperature','sex','heart'])

print(data.describe())

Temperature_data = data['Temperature']

u = data['Temperature'].mean()

std = data['Temperature'].std()

r,p = stats.pearsonr(data.Temperature, data.heart)

print('相关系数r为 = %6.3f,p值为 = %6.3f'%(r,p))

相关系数r为 = 0.254,p值为 = 0.004

得到:相关系数r=0.021,p值为=0.004

结论:总体的数据呈相关性,且相关系数为:0.021,但不是线性相关。

五、拓展

对于多维数据,需要计算两两之间的相关性。

比如是思维数据,列名分别为:A、B、C、D

就需要计算:

A:B、C、D

B:A、C、D

C:A、B、D

D:A、B、C

代码如下:

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import scipy.stats as stats

# 导入数据

data = pd.DataFrame(数据地址)

#或者

data=pd.read_csv(数据地址)

# 相关性计算

print(data.corr())

# 绘图

fig = pd.plotting.scatter_matrix(data,figsize=(6,6),c ='blue',marker = 'o',diagonal='',alpha = 0.8,range_padding=0.2) # diagonal只能为'hist'/'kde'

plt.show()

假设检验Python真香:用Python作假设检验​zhuanlan.zhihu.com

几组数据的相关性python_数据分析---用Python进行相关性分析(兼谈假设检验)相关推荐

  1. python 相关性分析_数据分析---用Python进行相关性分析(兼谈假设检验)

    一.相关关系和相关系数 世上除了因果关系,还有相关关系. 有一个叫"相关系数"的指标来量化两个事物之间的相关程度. 其中相关系数用"r"表示,取值范围介于-1和 ...

  2. 2020互联网数据分析师教程视频 统计学分析与数据实战 r语言数据分析实战 python数据分析实战 excel自动化报表分析实战 excel数据分析处理实战

    2020互联网数据分析师教程视频 统计学分析与数据实战 r语言数据分析实战 python数据分析实战 excel自动化报表分析实战 excel数据分析处理实战

  3. rfm模型python_数据分析实战——用RFM模型分析客户价值

    数据分析实战--用RFM模型分析客户价值 阿雷边学边教python数据分析第4期--数据可视化 一.介绍什么是RFM模型和作用 1.什么是RFM模型 RFM模型是衡量客户价值的一种工具,该模型通过客户 ...

  4. 【数据分析】python带你分析122万人的生活工作和死亡数据

    前言 嗨喽~大家好呀,这里是魔王呐 ! 闲的无聊的得我又来倒腾代码了~ 今天给大家分享得是--122万人的生活工作和死亡数据分析 准备好了嘛~现在开始发车喽!! 目录 前言 所需素材 代码 尾语 所需 ...

  5. 大数据毕业设计 招聘网站数据分析可视化 - python flask 网络爬虫

    文章目录 0 前言 1 课题背景 2 实现效果 3 Flask框架 4 Echarts 5 爬虫 6 最后 0 前言

  6. 川大667真题数据分析 | 利用Python和SPASS分析名词解释

    文章目录 名词解释结论 相关图表参考 名词解释结论 利用Python和SPASS对2009年-2020年真题(其中2018年到2019年的数据来源为学姐学长回忆版本)进行真题数据分析.希望能够对各位的 ...

  7. 对财经新闻情感分析python_我用Python进行情感分析,让程序员和女神牵手成功

    先用电影评论来做情感分析,主要包括下面几个主要内容(看到最后哦): 1.准备文本数据 2.基于文本文档来构建特征向量 3.训练机器学习模型来区分电影评论的正面评论和负面评论(对你的女神同样适用哦~~) ...

  8. python用excel数据做热力图_7行代码 Python热力图可视化分析缺失数据处理-Python 实用宝典...

    Python热力图寻找缺失数据 你有没有遇到一种情况,处理一张很大的csv表格的时候很难找到表格中每一列的缺失数据,或者说处理速度非常慢 ?当然如果你的Excel水平非常高,这个可能不会成为你的问题, ...

  9. 数据科学与大数据分析之项目5-情感分析

    情感分析Sentiment Analysis 项目介绍 项目开始 项目介绍 在Twitter上选择一个你感兴趣的话题,比如一部电影,一个名人,或者任何流行语.收集至少200条与此主题相关的tweet. ...

最新文章

  1. 从疫情到求职寒冬,我的算法求职经历
  2. 我的网站搭建: (第一天) 模型设计
  3. matlab--积分integration
  4. 门锁了开不了_智能门锁不会突然没电 门锁突然没电怎么办?
  5. java oom分析_OOM分析
  6. 网站搭建从零开始(七) WordPress站点的完善
  7. 体积最小桌面linux,Tiny Core Linux - 体积最小的精简 Linux 操作系统发行版之一 (仅10多MB) - 蓝月网络...
  8. 量化感知训练实践:实现精度无损的模型压缩和推理加速
  9. Spring中引入其他配置文件
  10. fcpx插件Corporate Story for Mac(商务公司视频宣传片头模板)
  11. 模仿Google搜索功能
  12. 变压器绕组降低邻近效应_低频变压器初级短路的原因及解决方案
  13. python求解LeetCode 习题 Excel Sheet Column Title
  14. 多功能jQuery日期控件基于jeDate
  15. 微软放弃收购雅虎的提议
  16. block与“阻塞(pend)”与“挂起(suspend)”的区别?
  17. 网络攻防技术-Lab5-shellcode编写实验(SEED Labs – Shellcode Development Lab)
  18. 【Vue3】第十四部分 父子组件传参
  19. java拼音搜索排序算法_Java汉字按照拼音排序
  20. c语言中i++与++i的区别

热门文章

  1. 关系数据库SQL面试排名前100道问答题
  2. win 10 + vs2017+C++的运行环境练习的2048游戏(附源码)
  3. 微商城怎么做?有详细介绍吗?
  4. 牛牛的跳跳棋【贪心】
  5. http://106.52.39.144:81/ 找到flag
  6. 9款经典华丽的CSS3分享按钮
  7. 我们开源了一个轻量的 Web IDE UI 框架 - Molecule
  8. java输出完全限定名_java – 从简单名称获取完全限定名称的列表
  9. [10minutes]百家姓
  10. excel输入公式不计算_Excel公式不计算