距离相关系数用来判断两个变量是否独立,值域为[0,2]

  • 值接近0,两个变量正相关
  • 值接近1,两个变量无关
  • 值接近2,两个变量负相关

距离相关系数可以参考:https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.correlation.html

维基百科解释:https://en.wikipedia.org/wiki/Distance_correlation

python中的使用也很简单:

from scipy.spatial.distance import correlationif __name__ == '__main__':corr_values = correlation([1, 2, 3, 4, 5],[5, 4, 3, 2, 5],)print(corr_values)

输出1.242535625036333,说明两个序列负相关

特征筛选的示例代码

import pandas as pd
from sklearn.datasets import make_classificationdef distance_corr(x_data: pd.DataFrame, y_data: pd.Series) -> pd.DataFrame:# 距离相关系数from scipy.spatial.distance import correlationdis_series = pd.Series(0.0, index=x_data.columns)for col_name, values in x_data.iteritems():dis_series[col_name] = correlation(values, y_data)return pd.DataFrame(dis_series)if __name__ == '__main__':value_x, value_y = make_classification(n_samples=1000, n_classes=4, n_features=10, n_informative=8)df_x = pd.DataFrame(value_x, columns=['f_1', 'f_2', 'f_3', 'f_4', 'f_5', 'f_6', "f_7", "f_8", "f_9", "f_10"])df_y = pd.Series(value_y)# 下面是筛选单变量特征feature_df = distance_corr(df_x, value_y)  # 距离相关系数for col_index, value in feature_df.iterrows():print(col_index, ":", value[0])

特征筛选5——距离相关系数筛选特征(单变量筛选)相关推荐

  1. 特征筛选6——肯德尔相关系数筛选特征(单变量筛选)

    肯德尔系数主要是用来判断两个有序序列的相关性 大致的计算流程: 对x与y先进行排序,得到不同的值对应的顺序 x与y配对计算,判断他们的顺序的一致对 (x的顺序与y的顺序相同) 和分歧对 (x的顺序与y ...

  2. 特征筛选4——斯皮尔曼相关系数筛选特征(单变量筛选)

    斯皮尔曼相关系数(斯皮尔曼等级相关系数),可以用来计算单调性,计算思路是: 首先将值做排序 判断排序的序号之间的相关系数 更多详情请参考:https://zh.wikipedia.org/wiki/% ...

  3. 特征筛选2——皮尔逊相关系数筛选(单变量筛选)

    值域为正负1之间,用来筛查单变量与预测结果之间的相关关系,一般来讲: 绝对值在0-0.1之间:无关 绝对值在0.1-0.3之间:弱相关关系 绝对值在0.3-0.6之间:存在相关关系 绝对值在0.6-0 ...

  4. 特征筛选3——卡方检验筛选特征(单变量筛选)

    sklearn文档:https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html 卡方检验 ...

  5. 特征筛选1——根据方差筛选(单变量筛选)

    根据给定方差的阈值,删除掉值变化小的维度,以此降低数据规模.当把阈值设置为0的时候,就会删除没有变化的数据. 示例 import numpy as np from sklearn.feature_se ...

  6. 吴恩达机器学习(第二章)——单变量线性回归

    第二章-单变量线性回归 文章目录 第二章-单变量线性回归 模型描述 代价函数 梯度下降 梯度下降的思想 梯度下降算法的公式 梯度下降的运动方式 线性回归的梯度下降 模型描述 在监督学习中我们有一个数据 ...

  7. 高维数据中特征筛选方法的思考总结——单变量分析筛选法

    基因组学.转录组学.蛋白组学及代谢组学等生信问题(高通量数据)中,面临的第一步往往就是降维(或者说筛选特征).降维方法分为两大类:单变量分析降维法.多变量分析降维法.单变量降维常常使用FC值或者P值, ...

  8. ML之FE:机器学习算法/数据挖掘中特征选取(变量筛选)的简介、常用方法(单变量分析并筛选—Filter/Wrapper/Embedded、多变量间相关性分析并筛选—PCC/MIC/IV)之详细攻略

    ML之FE:机器学习算法/数据挖掘中特征选取(变量筛选)的简介.常用方法(单变量分析并筛选-Filter/Wrapper/Embedded.多变量间相关性分析并筛选-PCC/MIC/IV)之详细攻略 ...

  9. 实战 lasso特征筛选得到5个基因 cox单因素分析得到很多有意义的基因 如何lasso筛选特征基因 然后再进行cox多因素分析

    二.为什么需要用 Lasso + Cox 生存分析模式一般我们在筛选影响患者预后的变量时,通常先进行单因素Cox分析筛选出关联的变量,然后构建多因素模型进一步确认变量与生存的关联是否独立. 但这种做法 ...

最新文章

  1. 《基于单幅图像的快速去雾》原理与C++复现(有一定工程意义)
  2. D001斯图加特~计算机
  3. 前端学习(668):分支导读
  4. 礼品盒子插画素材丨节日设计加上它之后价值翻倍!
  5. bootstrap-vue 中 model 基础用法
  6. CentOS设置ssh密钥登录
  7. 最流行的轻量级php框架,GitHub - meolu/zan: zan 轻量级PHP微框架
  8. 记一次js调试(attachEvent, onchange, onpropertychange)
  9. Qt打包发布程序,打包安装程序和打包为单个exe可执行程序,图文教程
  10. LumaQQ安装过程详解(转)
  11. 学计算机的思维导图,电脑上最好用的6款,思维导图软件测评
  12. 记某单机游戏的一次内购破解
  13. git/gitbub入门使用记录
  14. OpenCV识别图形以及常用函数处理
  15. 怎么把一个PDF文件拆分成多个?
  16. 用python爬取网页数据代码_python实现web页面数据抓取代码
  17. 【历史上的今天】12 月 12 日:英特尔创始人出生;PSP 发布;双十二购物狂欢节
  18. 奔 跑 吧 兄 弟 場 外 手 機 中 獎 活 動 是 真 的 嗎
  19. 【基础练习】codevs1506 传话题解
  20. 全网最全面的GitHub使用教程

热门文章

  1. 计算机应用技术试卷在线老师,《计算机应用技术》试卷B.doc
  2. java swing双缓冲_java中的双缓冲技术
  3. access用扫描枪输入_判断是否扫码枪输入的通用函数源码
  4. java 字符串 面试_JAVA中String介绍及常见面试题小结
  5. GPU Pro 2 ------ Volume Decals
  6. 苹果新Metal API实测:四倍完爆OpenGL ES
  7. 福州街头大红灯笼高高挂
  8. Android TextView,EditText要求固定行数自动调整TextSize
  9. 【解决】Vsftp匿名上传问题
  10. ZeroMq的研究和使用