值域为正负1之间,用来筛查单变量与预测结果之间的相关关系,一般来讲:

  • 绝对值在0-0.1之间:无关
  • 绝对值在0.1-0.3之间:弱相关关系
  • 绝对值在0.3-0.6之间:存在相关关系
  • 绝对值在0.6-0.9之间:强相关关系
  • 绝对值大于0.9:几乎线性相关

主要的功能函数:

def pearsonr_selection(x_data, y_data):  # 皮尔逊pearsonr相关系数from scipy.stats import pearsonrpara_dict3 = []for col_name, c_data in x_data.iteritems():sp = pearsonr(c_data, y_data)[0]para_dict3.append([col_name, abs(sp)])# 对特征进行排序feature_df = pd.DataFrame(para_dict3)feature_df.sort_values(by=1, ascending=False, inplace=True)return feature_df

示例

import pandas as pd
from sklearn.datasets import make_regression, make_classificationdef pearsonr_selection(x_data, y_data):  # 皮尔逊pearsonr相关系数from scipy.stats import pearsonrpara_dict3 = []for col_name, c_data in x_data.iteritems():sp = pearsonr(c_data, y_data)[0]para_dict3.append([col_name, abs(sp)])# 对特征进行排序feature_df = pd.DataFrame(para_dict3)feature_df.sort_values(by=1, ascending=False, inplace=True)return feature_dfif __name__ == '__main__':value_x, value_y = make_classification(n_samples=1000, n_classes=4, n_features=10, n_informative=8)df_x = pd.DataFrame(value_x, columns=['f_1', 'f_2', 'f_3', 'f_4', 'f_5', 'f_6', "f_7", "f_8", "f_9", "f_10"])df_y = pd.Series(value_y)# value_x, value_y = load_data(samples=10000, classification=True)# 下面是筛选单变量特征feature_df = pearsonr_selection(df_x, df_y)  # 皮尔逊for col_index, value in feature_df.iterrows():print(value[0], ":", value[1])

特征筛选2——皮尔逊相关系数筛选(单变量筛选)相关推荐

  1. 特征筛选6——肯德尔相关系数筛选特征(单变量筛选)

    肯德尔系数主要是用来判断两个有序序列的相关性 大致的计算流程: 对x与y先进行排序,得到不同的值对应的顺序 x与y配对计算,判断他们的顺序的一致对 (x的顺序与y的顺序相同) 和分歧对 (x的顺序与y ...

  2. 特征筛选5——距离相关系数筛选特征(单变量筛选)

    距离相关系数用来判断两个变量是否独立,值域为[0,2] 值接近0,两个变量正相关 值接近1,两个变量无关 值接近2,两个变量负相关 距离相关系数可以参考:https://docs.scipy.org/ ...

  3. 特征筛选4——斯皮尔曼相关系数筛选特征(单变量筛选)

    斯皮尔曼相关系数(斯皮尔曼等级相关系数),可以用来计算单调性,计算思路是: 首先将值做排序 判断排序的序号之间的相关系数 更多详情请参考:https://zh.wikipedia.org/wiki/% ...

  4. 特征筛选3——卡方检验筛选特征(单变量筛选)

    sklearn文档:https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html 卡方检验 ...

  5. 高维数据中特征筛选方法的思考总结——单变量分析筛选法

    基因组学.转录组学.蛋白组学及代谢组学等生信问题(高通量数据)中,面临的第一步往往就是降维(或者说筛选特征).降维方法分为两大类:单变量分析降维法.多变量分析降维法.单变量降维常常使用FC值或者P值, ...

  6. 特征筛选1——根据方差筛选(单变量筛选)

    根据给定方差的阈值,删除掉值变化小的维度,以此降低数据规模.当把阈值设置为0的时候,就会删除没有变化的数据. 示例 import numpy as np from sklearn.feature_se ...

  7. 皮尔逊相关系数_Pearson相关系数要求双变量正态分布,是两个变量均服从正态分布吗?...

    两变量的Pearson相关系数有自己的使用条件,要求两个连续变量服从双变量正态分布,也叫做二元正态分布.双变量正态分布?是指两个变量均要服从正态分布吗?类似的问题比如:请问使用皮尔逊相关系数描述两变量 ...

  8. ML之FE:机器学习算法/数据挖掘中特征选取(变量筛选)的简介、常用方法(单变量分析并筛选—Filter/Wrapper/Embedded、多变量间相关性分析并筛选—PCC/MIC/IV)之详细攻略

    ML之FE:机器学习算法/数据挖掘中特征选取(变量筛选)的简介.常用方法(单变量分析并筛选-Filter/Wrapper/Embedded.多变量间相关性分析并筛选-PCC/MIC/IV)之详细攻略 ...

  9. R语言回归模型构建、回归模型基本假设(正态性、线性、独立性、方差齐性)、回归模型诊断、car包诊断回归模型、特殊观察样本分析、数据变换、模型比较、特征筛选、交叉验证、预测变量相对重要度

    R语言回归模型构建.回归模型基本假设(正态性.线性.独立性.方差齐性).回归模型诊断.car包诊断回归模型.特殊观察样本分析.数据变换.模型比较.特征筛选.交叉验证.预测变量相对重要度 目录

最新文章

  1. 刀塔传奇服务器维护,刀塔传奇360专服合服维护补偿公告
  2. pycharm配置python解释器_Python大佬手把手教你进行Pycharm活动模板配置
  3. py+selenium 报错NameError: name 'NoSuchElementException' is not defined【已解决】
  4. 磁盘操作系统是计算机语言吗,实时磁盘操作系统
  5. ae制作小球轨迹运动_关于3D建筑漫游动画制作流程及技术详解
  6. 【渝粤题库】陕西师范大学300006 史学概论
  7. 计算机在医疗领域的发展未来,5G医疗在人工智能领域未来的发展
  8. 软件测试基础理论全集
  9. 内部收益率计算公式用计算机,用excel怎么计算内部收益率?
  10. 字节跳动技术团队年度 TOP10 技术干货,陪你度过不平凡的 2020
  11. 顺丰php下单,顺丰订单查询
  12. php生成字母头像,Identicon:实现根据用户账号生成像素头像 php 版
  13. 金九银十,为期2周的前端面经汇总(初级前端)
  14. zabbix通过插件percona进行监控MySQL
  15. 雨听 | 解除在微信公众平台中绑定的微信号
  16. 说出我国的超级计算机的发展历程,中国超级计算机发展史
  17. html .ani文件,ANI文件格式 | 学步园
  18. 波卡黑客松第三届(秋季)开发者大赛落幕
  19. nas服务器共享文件夹打不开,win7无法访问NAS上的CIFS共享
  20. 三十二位计算机游戏推荐,这32种课间游戏不重样,总有一款适合您和学生!| 推荐收藏...

热门文章

  1. C++:求区间内最大的因子和
  2. ue4 服务器登陆流程
  3. ksoap2-android Project
  4. linux开坑记--常用的3个命令
  5. 【推荐】开源堡垒机Teleport
  6. 奖金(拓补排序的应用)
  7. (实用篇)浅谈PHP拦截器之__set()与__get()的理解与使用方法
  8. 给ABBYY添加图像的方法
  9. 20135316王剑桥 linux第六周课实验笔记
  10. Activity间数据传输