python方差特征选择_特征选择-Filter过滤法（方差）

3.1 Filter过滤法

过滤方法通常用作预处理步骤，特征选择完全独立于任何机器学习算法。它是根据各种统计检验中的分数以及相关

性的各项指标来选择特征。

3.1.1 方差过滤

3.1.1.1 VarianceThreshold

这是通过特征本身的方差来筛选特征的类。比如一个特征本身的方差很小，就表示样本在这个特征上基本没有差

异，可能特征中的大多数值都一样，甚至整个特征的取值都相同，那这个特征对于样本区分没有什么作用。所以无

论接下来的特征工程要做什么，都要优先消除方差为0的特征。VarianceThreshold有重要参数threshold，表示方

差的阈值，表示舍弃所有方差小于threshold的特征，不填默认为0，即删除所有的记录都相同的特征。

import pandas as pd

data = pd.read_csv("digit recognizor.csv")

X = data.iloc[:,1:]

y = data.iloc[:,0]

from sklearn.feature_selection import VarianceThreshold

selector = VarianceThreshold() #实例化，不填参数默认方差为0

X_var0 = selector.fit_transform(X) #获取删除不合格特征之后的新特征矩阵

#也可以直接写成 X = VairanceThreshold().fit_transform(X)

X_var0.shape

import numpy as np

X_fsvar = VarianceThreshold(np.median(X.var().values)).fit_transform(X)

当特征是二分类时，特征的取值就是伯努利随机变量，这些变量的方差可以计算为：

p*(1-p)

#若特征是伯努利随机变量，假设p=0.8，即二分类特征中某种分类占到80%以上的时候删除特征

X_bvar = VarianceThreshold(.8 * (1 - .8)).fit_transform(X)

X_bvar.shape

3.1.1.2 方差过滤对模型的影响

我们这样做了以后，对模型效果会有怎样的影响呢？在这里，我为大家准备了KNN和随机森林分别在方差过滤前和

方差过滤后运行的效果和运行时间的对比。KNN是K近邻算法中的分类算法，其原理非常简单，是利用每个样本到

其他样本点的距离来判断每个样本点的相似度，然后对样本进行分类。KNN必须遍历每个特征和每个样本，因而特

征越多，KNN的计算也就会越缓慢。由于这一段代码对比运行时间过长，所以我为大家贴出了代码和结果。

1. 导入模块并准备数据

#KNN vs 随机森林在不同方差过滤效果下的对比

from sklearn.ensemble import RandomForestClassifier as RFC

from sklearn.neighbors import KNeighborsClassifier as KNN

from sklearn.model_selection import cross_val_score

import numpy as np

X = data.iloc[:,1:]

y = data.iloc[:,0]

X_fsvar = VarianceThreshold(np.median(X.var().values)).fit_transform(X)

我们从模块neighbors导入KNeighborsClassfier缩写为KNN，导入随机森林缩写为RFC，然后导入交叉验证模块和

numpy。其中未过滤的数据是X和y，使用中位数过滤后的数据是X_fsvar，都是我们之前已经运行过的代码。

2. KNN方差过滤前

#======【TIME WARNING：35mins +】======#

cross_val_score(KNN(),X,y,cv=5).mean()

#python中的魔法命令，可以直接使用%%timeit来计算运行这个cell中的代码所需的时间

#为了计算所需的时间，需要将这个cell中的代码运行很多次(通常是7次)后求平均值，因此运行%%timeit的时间会

#远远超过cell中的代码单独运行的时间

#======【TIME WARNING：4 hours】======#

%%timeit

cross_val_score(KNN(),X,y,cv=5).mean()

3. KNN方差过滤后

#======【TIME WARNING：20 mins+】======#

cross_val_score(KNN(),X_fsvar,y,cv=5).mean()

#======【TIME WARNING：2 hours】======#

%%timeit

cross_val_score(KNN(),X,y,cv=5).mean()

可以看出，对于KNN，

过滤后的效果十分明显：准确率稍有提升，但平均运行时间减少了10分钟，特征选择过后算

法的效率上升了1/3。那随机森林又如何呢？

4. 随机森林方差过滤前

cross_val_score(RFC(n_estimators=10,random_state=0),X,y,cv=5).mean()

5. 随机森林方差过滤后

cross_val_score(RFC(n_estimators=10,random_state=0),X_fsvar,y,cv=5).mean()

首先可以观察到的是，随机森林的准确率略逊于KNN，但运行时间却连KNN的1%都不到，只需要十几秒钟。其

次，方差过滤后，随机森林的准确率也微弱上升，但运行时间却几乎是没什么变化，依然是11秒钟。

为什么随机森林运行如此之快？为什么方差过滤对随机森林没很大的有影响？这是由于两种算法的原理中涉及到的

计算量不同。最近邻算法KNN，单棵决策树，支持向量机SVM，神经网络，回归算法，都需要遍历特征或升维来进

行运算，所以他们本身的运算量就很大，需要的时间就很长，因此方差过滤这样的特征选择对他们来说就尤为重

要。但对于不需要遍历特征的算法，比如随机森林，它随机选取特征进行分枝，本身运算就非常快速，因此特征选

择对它来说效果平平。这其实很容易理解，无论过滤法如何降低特征的数量，随机森林也只会选取固定数量的特征

来建模；而最近邻算法就不同了，特征越少，距离计算的维度就越少，模型明显会随着特征的减少变得轻量。因

此，过滤法的主要对象是：需要遍历特征或升维的算法们，而过滤法的主要目的是：在维持算法表现的前提下，帮

助算法们降低计算成本。

思考：过滤法对随机森林无效，却对树模型有效？

从算法原理上来说，传统决策树需要遍历所有特征，计算不纯度后进行分枝，而随机森林却是随机选择特征进

行计算和分枝，因此随机森林的运算更快，过滤法对随机森林无用，对决策树却有用

在sklearn中，决策树和随机森林都是随机选择特征进行分枝(不记得的小伙伴可以去复习第一章：决策树，

参数random_state)，但决策树在建模过程中随机抽取的特征数目却远远超过随机森林当中每棵树随机抽取

的特征数目(比如说对于这个780维的数据，随机森林每棵树只会抽取10~20个特征，而决策树可能会抽取

300~400个特征)，因此，过滤法对随机森林无用，却对决策树有用

也因此，在sklearn中，随机森林中的每棵树都比单独的一棵决策树简单得多，高维数据下的随机森林的计算

比决策树快很多。

总结：

阈值很小

被过滤掉得特征比较少

模型表现不会有太大影响

运行时间　可能降低模型的运行时间基于方差很小的特征有多少当方差很小的特征不多时对模型没有太大影响

阈值比较大

被过滤掉的特征有很多

模型表现

可能变更好，代表被滤掉的特征大部分是噪音

也可能变糟糕，代表被滤掉的特征中很多都是有效特征

运行时间

定能够降低模型的运行时间

算法在遍历特征时的计算越复杂，运行时间下降得越多

在我们的对比当中，我们使用的方差阈值是特征方差的中位数，因此属于阈值比较大，过滤掉的特征比较多的情

况。我们可以观察到，无论是KNN还是随机森林，在过滤掉一半特征之后，模型的精确度都上升了。这说明被我们

过滤掉的特征在当前随机模式(random_state = 0)下大部分是噪音。那我们就可以保留这个去掉了一半特征的数

据，来为之后的特征选择做准备。当然，如果过滤之后模型的效果反而变差了，我们就可以认为，被我们过滤掉的

特征中有很多都有有效特征，那我们就放弃过滤，使用其他手段来进行特征选择

3.1.1.3 选取超参数threshold

我们怎样知道，方差过滤掉的到底时噪音还是有效特征呢？过滤后模型到底会变好还是会变坏呢？答案是：每个数

据集不一样，只能自己去尝试。这里的方差阈值，其实相当于是一个超参数，要选定最优的超参数，我们可以画学

习曲线，找模型效果最好的点。但现实中，我们往往不会这样去做，因为这样会耗费大量的时间。我们只会使用阈

值为0或者阈值很小的方差过滤，来为我们优先消除一些明显用不到的特征，然后我们会选择更优的特征选择方法

继续削减特征数量

python方差特征选择_特征选择-Filter过滤法（方差）相关推荐

python方差齐性检验_方差分析中的方差齐性检验_方差齐性检验结果分析
方差分析中的方差齐性检验_方差齐性检验结果分析_方差分析齐性检验方差分析时的方差齐性检验是方差分析的前提条件,还是只是后面进行均值的多重比较时选择分析方法的依据?看过几本书,这两种观点都有.我看方 ...
几何分布的期望和方差公式推导_数学期望、方差、协方差
概论: 一维随机变量期望与方差二维随机变量期望与方差协方差 1.一维随机变量期望与方差: 公式: 离散型: E(X)=∑i=1->nXiPi Y=g(x) E(Y)=∑i=1->ng( ...
python计算期望值_机器学习：计算方差时为何除以n-1
小弟准备了数据结构.Java.大数据.AI.面试题.python等各种资料需要领取等朋友麻烦转发此文,然后私信[学习]即可获取设样本均值为 ,样本方差为 ,总体均值为 ,总体方差为 ,那 ...
python 卡方检验特征选择_特征选择之卡方检验
特征选择的常用方法之一是卡方检验,作为一个filter model的代表,卡方检验属于简单易计算的Feature weight algorithm(通过一定的measure方法给特征赋上一定的weig ...
分词之后的如何做特征选择_特征选择怎么做？这篇文章告诉你
作者 | Pier Paolo Ippolito 翻译 | Skura 编辑 | 唐里原文标题:Feature Selection Techniques 据<福布斯>报道,每天大约会有 ...
特征选择过滤法-方差过滤、F检验、互信息法
过滤法过滤法通常用作预处理步骤,特征选择完全独立于任何机器学习算法.它是根据各种统计检验分数和相关性指标来选择特征. 全部特征--->最佳特征子集--->算法---> ...
python特征选择后显示选取的特征名_特征选择 (feature_selection)
特征选择 (feature_selection) 本文主要参考sklearn(0.18版为主,部分0.17)的1.13节的官方文档,以及一些工程实践整理而成. 当数据预处理完成后,我们需要选择有意义的 ...
python 卡方检验特征选择_结合Scikit-learn介绍几种常用的特征选择方法
特征选择(排序)对于数据科学家.机器学习从业者来说非常重要.好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点.底层结构,这对进一步改善模型.算法都有着重要作用. 特征选择主要有两个功能: 减 ...
python方差齐性检验_【Python】统计科学之方差齐性检验
首页专栏 python 文章详情 0 统计科学之方差齐性检验张俊红发布于今天 10:38 1.前言我们在方差分析里面有讲过,方差分析有一个很重要的前提就是叫方差齐性.这一篇来讲讲如何来检验方差 ...
python方差齐性检验_讲讲如何来检验方差齐性
1.前言我们在方差分析里面有讲过,方差分析有一个很重要的前提就是叫方差齐性.这一篇来讲讲如何来检验方差齐性. 先讲讲什么是方差齐性,方差齐性是指不同组间的总体方差是一样的.那为什么方差分析的前提是要 ...

python方差特征选择_特征选择-Filter过滤法（方差）

python方差特征选择_特征选择-Filter过滤法（方差）相关推荐

最新文章

热门文章