在我们进行数据分析或者是机器学习模型建立的时候我们往往忽略数据处理的一个过程-----相关性分析。诚然,数据相互之间可能会存在一些联系,这些关系可能正相关,或者是负相关,也可能无关。
设X1,X2,X3,X4,X5为模型的自变量,Y为因变量。可以想到,如果X1与X2有很强的相关性或者X3与X2有相关性,即两两之间存在某种相关性,那么是不是意味着某个特征可以由其他特征表示?既然这样,有些特征也许是多余的。这些特征对我们的模型起不了很大的作用,甚至是模型的累赘,消耗内存。
在建立模型的过程中。 那么我们就需要一种能把这种关联性定量的工具来对数据进行分析。

  • 皮尔逊相关性分析

皮尔逊相关性系数只能表达两两特征之间的关系。

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
% matplotlib inlinedata2 = pd.read_csv(r'E:\Project1\section_1_day_data.csv',index_col=0)
X=data2.iloc[:, 0:10]
sns.heatmap(X.corr(),vmin=0, vmax=1);

print(X.corr()) #显示特征与特征之间的相关性系数。


相关性区间为[-1,1],-1代表完全负相关,1代表完全正相关。为0代表完全不相关。因此,相关性系数绝对值越接近于1,两者特征之间的相关性最强。

怎么样,变量之间的相关性是不是一清二楚了?
报告老师,水温和参数TP之间的关系最强。小论文最后一章又有东西写了,多加几张表投个SCI四区论文水一下问题不大。

在这里要注意了,\右对角线上的都是1,代表变量与自身的关系。 ±代表正负相关。 因此,我们通常通过相关系数的绝对值来判断特征之间的相关性。

统计机器学习相关性分析相关推荐

  1. python线性回归分析看相关性_机器学习入门:相关性分析之线性回归

    一.前言 机器学习--特征与标签 : 输入模型的属性是"特征",输出的是"标签" 机器学习的核心是"使用算法解析数据,从中学习,然后对世界上的某件事情 ...

  2. spark 相关性分析_《Spark机器学习进阶实战》——2.3.2 相关性分析

    2.3.2 相关性分析 相关性分析是指通过分析寻找不同商品或不同行为之间的关系,发现用户的习惯,计算两个数据集的相关性是统计中的常见操作. MLlib提供了计算多个数据集两两相关的方法.目前支持的相关 ...

  3. 机器学习(32)之典型相关性分析(CCA)详解 【文末有福利......】

    微信公众号 关键字全网搜索最新排名 [机器学习算法]:排名第一 [机器学习]:排名第一 [Python]:排名第三 [算法]:排名第四 人工智能与Python公开课 限时免费 文末领取 前言 典型关联 ...

  4. 语言相关系数显著性_相关性分析在SPSS中的具体操作,一文读懂相关系数的含义及使用——【杏花开生物医药统计】...

    相关性分析介绍 生物和医学统计中,相关分析属于流程前端的探索性分析,研究变量间关系及性质,其结果在为下一步采取何种方法做出指引,为数据挖掘之前的基础工作. 相关系数的选择 相关分析之前,需要先确认变量 ...

  5. sklearn 相关性分析_人工智能和大数据的骨架支点—— 机器学习之相关性分析

    内容架构: 第一部分:简单线性回归 第二部分:如何用逻辑回归分类 第三部分:kaggle和泰坦尼克号预测 第一部分:简单线性回归 一.机器学习(Machine Learning, ML) 是机器学习算 ...

  6. ML之FE:机器学习算法/数据挖掘中特征选取(变量筛选)的简介、常用方法(单变量分析并筛选—Filter/Wrapper/Embedded、多变量间相关性分析并筛选—PCC/MIC/IV)之详细攻略

    ML之FE:机器学习算法/数据挖掘中特征选取(变量筛选)的简介.常用方法(单变量分析并筛选-Filter/Wrapper/Embedded.多变量间相关性分析并筛选-PCC/MIC/IV)之详细攻略 ...

  7. 卡方检验--离散变量相关性分析--机器学习特征选择

    一.卡方检验理论 这部分来自<概率论与数理统计>.先从理论角度介绍卡方检验是什么. 卡方检验起始就是一种假设检验. 假定一个总体可以分成r类,从该总体获得了样本数据集.从该样本数据集出发, ...

  8. 机器学习——数据降维和相关性分析

    特征工程中数据降维方法思想有两种: 1. 破坏数据原有的结构从而提取数据的主要特征,例如主成分分析(PCA): 2. 对数据进行相关性分析,按照一定的法则来对数据的属性进行取舍达到降维的目的. 相关性 ...

  9. 机器学习案例:运营商客户流失的数据分析 #数据去重#数据分组整合#缺失值处理#相关性分析#样本平衡#决策树、随机森林、逻辑回归

    运营商客户流失分析 - 飞桨AI Studio 目录 1 数据预处理 1.1 数据集去重 1.2 数据集分组整合 1.3 缺失值处理 1.4 相关性分析 2 样本平衡 3 相关性分析 4 构建模型 4 ...

最新文章

  1. 多线程的实现方式_Java中线程的状态及多线程的实现方式
  2. 动态查看JVM内存的工具
  3. Linux下简单的系统调用
  4. P3605 [USACO17JAN]Promotion Counting P dfs序
  5. 使用Arquillian,Docker和Selenium使Web UI测试再次变得出色(第1部分)
  6. 如果我是博客园的产品经理【上】
  7. linux模式匹配运算符,linux之正则表达式
  8. 用c语言实现艺术清屏
  9. java 中 Integer 比较 问题
  10. verilog实现多周期处理器之——(一)基本概念以及总体框架
  11. 联合光伏:雨后复斜阳 关山阵阵苍
  12. Java学习(8):贪吃蛇游戏
  13. Mysql B+树索引的使用
  14. 【16.8】苹果四代蓝牙耳机+吉萌兔保温杯+小红杯拿铁黑咖啡+公务员教材真题
  15. 纯css3实现图片自动切换
  16. 博士读一半,导师跳槽了!博士生把亲身经历发在了Science上
  17. Mac 键盘符号说明
  18. java无法验证发布者_Win10系统提示无法验证发布者的解决技巧
  19. C++虚函数实现机制
  20. 从0糖到0防腐剂,元气森林缘何偏向“虎山行”?

热门文章

  1. [透视变换]象棋棋盘矫正Python&OpenCV
  2. 一个矩阵与单位矩阵相乘等于本身吗?并且符合交换律吗?
  3. Holt-Winters 季节方法
  4. 小米MIX进入和退出Recovery模式、Fastboot模式各种方法
  5. 转载:用聚宽实现一个多因子策略
  6. Matlab学习笔记9.3:Matlab之神经网络模型
  7. iOS开发--APP性能检测方案汇总(一)
  8. 定制化和极简主义风格的安卓,看你pick谁?
  9. .net中对象名无效问题解决
  10. 137.Python修炼之路【142-前端-JQuery-jqueryUI】2018.08.04