示例图:

皮尔森相关系数为了确定 每个特征之间是否紧密相关,如果很相关就属于重复特征,可以去除。 我们输入机器学习模型中的每个特征都独一无二,这才是最佳。

python实现代码

import seaborn as sns #图表模块

import matplotlib.pyplot as plt #绘图模块库

colormap = plt.cm.RdBu # 绘图库中的颜色查找表。比如A1是红色,A2是浅蓝色。 这样一种映射关系

plt.figure(figsize=(14,12))#创建一个新的图表,参数是尺寸,单位为英寸。

plt.title('Pearson Correlation of Features', y=1.05, size=15) #给图表一个标题~~

sns.heatmap(train.astype(float).corr(),linewidths=0.1,vmax=1.0,square=True, cmap=colormap, linecolor='white', annot=True) #将皮尔森系数值画成图表形式。

代码解释:

    这里的train.astype(float).corr()    中的train 是python pandas模块中DateFrame结构,这里存储着的是机器学习模型的训练数据,   然后通过.corr()求皮尔森相关系数方法,计算出相关系数。

corr()是correlation的缩写,中文意思为相关。

算法底层原理:

皮尔森系数公式为:

cov(X,Y) 是求X数组和Y数组的协方差。

协方差公式为:

当协方差值>0时,表明两个数组正相关

当协方差值=0时,表明两个数不相关

当协方差值<0时,表明两个数组负相关。

回到皮尔森相关系数,现在我们已经知道了 协方差计算出了 相关性,但是只知相关性,而无法度量它强和弱,

如何度量强和弱呢?

这是用协方差/(X数组的标准差*Y数组的标准差),

这个公式的作者是否从余弦距离得到的启发呢?如下图

最终我们计算出了-1 到 1 的取值结果。

公式求的值对应下面图表(省略了x轴和y轴,自行脑补。。),例如1和-1 他们就是线性相关,一个是正相关,一个负相关,而0就是没有任何关系的

这样我们就求得了两个数组之间的关系程度,排除强相关特征,降低机器学习数据维度,从而得到更好的模型。

——————————————————————————————————

机器学习特征工程之皮尔森相关系数 pearson correlation of features相关推荐

  1. 皮尔森(Pearson correlation coefficient)相关系数—统计学三大相关系数之一

    概述 皮尔森相关系数也称皮尔森积矩相关系数(Pearson product-moment correlation coefficient) ,是一种线性相关系数,是最常用的一种相关系数.记为r,用来反 ...

  2. 机器学习-特征工程中的特征选择

    对于一个机器学习问题,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.由此可见,数据和特征在模型的整个开发过程中是比较重要.特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为 ...

  3. 机器学习特征工程之连续变量离散化:聚类法进行分箱

    机器学习特征工程之连续变量离散化:聚类法进行分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲, ...

  4. 机器学习特征工程之连续变量离散化:等频分箱

    机器学习特征工程之连续变量离散化:等频分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...

  5. 机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer)

    机器学习特征工程之连续变量离散化:连续变量二值化(Binarizer) 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均 ...

  6. 机器学习特征工程之连续变量离散化:等宽分箱

    机器学习特征工程之连续变量离散化:等宽分箱 离散化,就是把无限空间中有限的个体映射到有限的空间中: 根据用户的听音乐的数据来预测哪些歌曲更受欢迎. 假设大部分人听歌都很平均,会不停的听新的歌曲,但是有 ...

  7. 机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)

    机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...

  8. 机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler)

    机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行缩 ...

  9. 机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler)

    机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...

  10. 双样本T检验——机器学习特征工程相关性分析实战

    最近在做数据分析方面的工作,经常需要检验两组样本之间是否存在差异,所以会遇到统计学中假设检验相关的知识.在机器学习特征工程这一步,笔者最常用到的是假设检验中的卡方检验去做特征选择,因为卡方检验可以做两 ...

最新文章

  1. 费用保险单,如何失焦时自动补零
  2. 李飞飞重回斯坦福,Andrew Moore接手谷歌云AI
  3. Graph Embedding学习笔记(3):Graph Convolution Networks
  4. Tomcat - Tomcat 8.5.55 启动过程源码分析阶段三_start阶段
  5. C/C++ 类默认生成的四个函数
  6. 【Shell脚本】颜色显示
  7. 算法导论学习笔记 6.5 优先队列
  8. 实现基于虚拟用户的邮件系统架构
  9. Thread.getContextClassLoader与Thread.getClassLoader()区别
  10. Codeforces Round #766 (Div. 2) D. Not Adding 数学gcd
  11. OpenWrt 之 MT7628 移植第三方SPI驱动
  12. 10 岁研究计算机,电脑神童“不务正业”的技术路
  13. php 5.2.6升级,Centos5.5 简单方法升级php到php5.2.6
  14. Java 中的细节补充
  15. 26.如何使用python操作我们自己创建的docker image呢?
  16. Vue3 组合式Api之customRef实现防抖功能
  17. 运算符重载 返回类型说明符后加_C++日志(三十八)干货!带你搞懂什么是运算符重载!...
  18. 七. 并发编程 (进程队列)
  19. SVG——入门,路径变形动画
  20. github.io网页无法打开(连接不是私密连接)

热门文章

  1. java applet介绍,Java Applet教程介绍
  2. 很多的计算机英语词汇是通过,计算机英语词汇隐喻分析
  3. 电子电路基础 (13)——数字电路基础 - 逻辑电路
  4. html怎么做出相框的效果,纯CSS实现的相框效果
  5. 华为海思总裁深夜发文:进入至暗时刻,技术“备胎”将全部转正应敌
  6. 百度地图,根据地址计算经度纬度
  7. linux 更新系统命令,Linux系统自动更新时间命令的详细说明
  8. 哪个计算机软件可以编辑动画文字,文字动画视频电脑版
  9. 静态页面模板,比较不错的网站,效果比较多,html代码可以直接下载即可
  10. 计算机语言栏不能添加,电脑电脑输入法添加不了怎么办