sklearn特征选择类库使用小结
在建立机器模型时,并不是所有属性对模型有同等贡献的,也不是属性越多,模型也好,因此要从众多属性中选择对模型输出及预测结果贡献最大的特征变量,这个过程就叫特征选择,特征选择的作用:消除无关变量,较少训练数据,节省了训练时间,同时提供了模型准确率,也可以缓解过拟合问题。
sklearn.feature_selection模块实现了特征选择算法,目前主要包括:单变量特征选择和递归特征消除。该模块的类主要用于特征选择或样本集上降维,提高算法的准确率或者提升在高位数据集上表现
①sklearn.feature_selection.VarianceThreshold(threshold=0.0):通过特征的方差来提取特征,默认方差为0的特征会自动删除
- 默认删除方差为0的特征
- In [1]: from sklearn.feature_selection import VarianceThreshold
- ...: X = [[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]
- ...: selector = VarianceThreshold()#默认threshold=0.0
- ...: selector.fit_transform(X)
- ...:
- Out[1]:
- array([[2, 0],
- [1, 4],
- [1, 1]])
- 指定方差阈值(threshold)参数:表示只提取特征方差大于阈值的特征
- In [6]: from sklearn.feature_selection import VarianceThreshold
- ...: X = [[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 6]]
- ...: selector = VarianceThreshold(threshold=2)
- ...: selector.fit_transform(X)
- ...:
- Out[6]:
- array([[0],
- [4],
- [1]])
- In [7]: selector.variances_
- Out[7]: array([ 0. , 0.22222222, 2.88888889, 2. ])
- 通过variances_属性查看样本各个特征的方差
- In [2]: selector.variances_
- Out[2]: array([ 0. , 0.22222222, 2.88888889, 0. ])
- fit(X, y=None):从特征向量X中学习方差,返回sklearn.feature_selection.variance_threshold.VarianceThreshold对象,y参数只是为了兼容sklearn.pipeline.Pipeline
- In [8]: from sklearn.feature_selection import VarianceThreshold
- ...: X = [[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 6]]
- ...: st = VarianceThreshold(threshold=2)
- ...: st.fit(X)
- ...: print(type(st.fit(X)))
- ...: st.variances_
- ...:
- <class 'sklearn.feature_selection.variance_threshold.VarianceThreshold'>
- Out[8]: array([ 0. , 0.22222222, 2.88888889, 2. ])
- fit_transform(X, y=None, **fit_params):返回提取特征转换后的数组
- In [9]: selector.fit_transform(X)
- Out[9]:
- array([[0],
- [4],
- [1]])
- get_params(deep=True):获取估计器参数,以字典形式返回
- In [10]: selector.get_params(deep=True)
- Out[10]: {'threshold': 2}
- get_support(indices=False):若indices参数为False,返回所有特征的布尔数组,满足条件的特征列为True,不满足的特征列为False;若indices为True,则满足条件的特征列对应的整数组成的数组
- In [11]: selector.get_support(False)
- Out[11]: array([False, False, True, False], dtype=bool)
- In [12]: selector.get_support(True)
- Out[12]: array([2], dtype=int64)
- inverse_transform(X):返回X剔除的特征列值用0替换的数组
- In [13]: selector.inverse_transform(selector.fit_transform(X))
- Out[13]:
- array([[0, 0, 0, 0],
- [0, 0, 4, 0],
- [0, 0, 1, 0]])
- set_params(**params):设置估计器参数
- In [14]: selector.set_params(threshold=1)
- Out[14]: VarianceThreshold(threshold=1)
- transform(X):数据转换
- In [15]: X2= [[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]
- ...: selector.transform(X2)
- ...:
- Out[15]:
- array([[0, 3],
- [4, 3],
- [1, 3]])
②sklearn.feature_selection.GenericUnivariateSelect(score_func=<function f_classif>, mode=’percentile’,param=1e-05):可以设置不同的策略来进行单变量特征选择,也可以同时超参数调优选择最佳单变量选择策略
参数说明:
score_func:回调函数,函数接受X和y两个数组,返回(scores, pvalues)元组数组
mode:特征选择模式,可选项:‘percentile’, ‘k_best’, ‘fpr’, ‘fdr’, ‘fwe’
- In [1]: from sklearn.datasets import load_iris
- ...: from sklearn.feature_selection import chi2
- ...: from sklearn.feature_selection import GenericUnivariateSelect
- ...: iris = load_iris()
- ...: X,y = iris.data , iris.target
- ...: s = GenericUnivariateSelect(score_func =chi2, mode='k_best',param=2)
- ...: s.fit_transform(X,y)
- ...:
- Out[1]:
- array([[ 1.4, 0.2],
- [ 1.4, 0.2],
- [ 1.3, 0.2],
- [ 1.5, 0.2],
- [ 1.4, 0.2],
- [ 1.7, 0.4],
- .....
- [ 5.4, 2.3],
- [ 5.1, 1.8]])
scores_属性:查看各个特征的score
- In [2]: s.scores_
- Out[2]: array([ 10.81782088, 3.59449902, 116.16984746, 67.24482759])
pvalues_属性:查看各特征P值
- In [3]: s.pvalues_
- Out[3]:
- array([ 4.47651499e-03, 1.65754167e-01, 5.94344354e-26,
- 2.50017968e-15])
③sklearn.feature_selection.SelectKBest(score_func=<function f_classif>, k=10):scores按升序排序,选择排前k名所对应的特征
参数说明:k取整数或all
属性值:
- In [1]: from sklearn.datasets import load_iris
- ...: from sklearn.feature_selection import SelectKBest,chi2
- ...: iris = load_iris()
- ...: X,y = iris.data,iris.target
- ...: s = SelectKBest(chi2, k='all').fit(X,y)
- ...:
- In [2]: s.scores_
- Out[2]: array([ 10.81782088, 3.59449902, 116.16984746, 67.24482759])
- In [3]: s.pvalues_
- Out[3]:
- array([ 4.47651499e-03, 1.65754167e-01, 5.94344354e-26,
- 2.50017968e-15])
- In [4]: sk =SelectKBest(chi2, k=2).fit(X,y)
- In [5]: sk.scores_
- Out[5]: array([ 10.81782088, 3.59449902, 116.16984746, 67.24482759])
- In [6]: sk.pvalues_
- Out[6]:
- array([ 4.47651499e-03, 1.65754167e-01, 5.94344354e-26,
- 2.50017968e-15])
方法:
- fit_transform(X, y=None, **fit_params):训练和转换数据
- In [7]: sk.fit_transform(X,y)
- Out[7]:
- array([[ 1.4, 0.2],
- [ 1.4, 0.2],
- [ 1.3, 0.2],
- ...
- [ 5.2, 2. ],
- [ 5.4, 2.3],
- [ 5.1, 1.8]])
- get_support(indices=False):indices=False返回布尔数组,选择的特征列为True,未选择的特征列为False;indices=True返回选择特征列的整数索引
- In [8]: sk.get_support(indices=False)
- Out[8]: array([False, False, True, True], dtype=bool)
- In [9]: sk.get_support(indices=True)
- Out[9]: array([2, 3], dtype=int64)
- inverse_transform(X):返回和原X大小相同的数组,未选择的特征用0替换
- In [11]: sk.inverse_transform(sk.fit_transform(X,y))
- Out[11]:
- array([[ 0. , 0. , 1.4, 0.2],
- [ 0. , 0. , 1.4, 0.2],
- [ 0. , 0. , 1.3, 0.2],
- [ 0. , 0. , 1.5, 0.2],
- ....
- [ 0. , 0. , 5.4, 2.3],
- [ 0. , 0. , 5.1, 1.8]])
- transform(X):返回X降维到所选的特征上数组
- In [3]: sk.transform(X)
- Out[3]:
- array([[ 1.4, 0.2],
- [ 1.4, 0.2],
- [ 1.3, 0.2],
- [ 1.5, 0.2],
- ...
- [ 5.4, 2.3],
- [ 5.1, 1.8]])
④sklearn.feature_selection.SelectPercentile(score_func=<function f_classif>, percentile=10):scores按升序排序,选择排前百分percentile所对应的特征
- In [1]: from sklearn.datasets import load_iris
- ...: from sklearn.feature_selection import SelectPercentile,chi2
- ...: iris = load_iris()
- ...: X, y = iris.data, iris.target
- ...: sp=SelectPercentile(chi2, percentile=33).fit(X,y)
- ...: print(sp.scores_)
- ...: X_new = sp.fit_transform(X,y)
- ...: X_new[:10]
- ...:
- [ 10.81782088 3.59449902 116.16984746 67.24482759]
- Out[1]:
- array([[ 1.4],
- [ 1.4],
- [ 1.3],
- [ 1.5],
- [ 1.4],
- [ 1.7],
- [ 1.4],
- [ 1.5],
- [ 1.4],
- [ 1.5]])
- In [2]: from sklearn.datasets import load_iris
- ...: from sklearn.feature_selection import SelectPercentile,chi2
- ...: iris = load_iris()
- ...: X, y = iris.data, iris.target
- ...: sp=SelectPercentile(chi2, percentile=34).fit(X,y)
- ...: print(sp.scores_)
- ...: X_new = sp.fit_transform(X,y)
- ...: X_new[:10]
- ...:
- [ 10.81782088 3.59449902 116.16984746 67.24482759]
- Out[2]:
- array([[ 1.4, 0.2],
- [ 1.4, 0.2],
- [ 1.3, 0.2],
- [ 1.5, 0.2],
- [ 1.4, 0.2],
- [ 1.7, 0.4],
- [ 1.4, 0.3],
- [ 1.5, 0.2],
- [ 1.4, 0.2],
- [ 1.5, 0.1]])
没明白上述percentile=33时,只选择一个特征,而percentile=34时,选择了两个特征,该比例值时如何计算的? -----遗留问题
⑤sklearn.feature_selection.SelectFpr(score_func=<function f_classif>, alpha=0.05):alpha默认值为0.05,过滤掉特征的pvalues_高于指定alpha的特征
- In [3]: from sklearn.datasets import load_iris
- ...: from sklearn.feature_selection import SelectFpr,chi2
- ...: iris = load_iris()
- ...: X, y = iris.data, iris.target
- ...: sp=SelectFpr(chi2, alpha=0.05).fit(X,y)
- ...:
- In [4]: sp.pvalues_
- Out[4]:
- array([ 4.47651499e-03, 1.65754167e-01, 5.94344354e-26,
- 2.50017968e-15])
- In [5]: sp.get_support(indices=True)
- Out[5]: array([0, 2, 3], dtype=int64)
⑥sklearn.feature_selection.SelectFdr(score_func=<function f_classif>, alpha=0.05),同SelectFpr类似
- In [6]: from sklearn.datasets import load_iris
- ...: from sklearn.feature_selection import SelectFdr,chi2
- ...: iris = load_iris()
- ...: X, y = iris.data, iris.target
- ...: sp=SelectFdr(chi2, alpha=0.004).fit(X,y)
- ...:
- In [7]: sp.pvalues_
- Out[7]:
- array([ 4.47651499e-03, 1.65754167e-01, 5.94344354e-26,
- 2.50017968e-15])
- In [8]: sp.get_support(indices=True)
- Out[8]: array([2, 3], dtype=int64)
sklearn特征选择类库使用小结相关推荐
- scikit-learn K近邻法类库使用小结
1. scikit-learn 中KNN相关的类库概述 在scikit-learn 中,与近邻法这一大类相关的类库都在sklearn.neighbors包之中.KNN分类树的类是KNeighborsC ...
- scikit-learn Adaboost类库使用小结
在集成学习之Adaboost算法原理小结中,我们对Adaboost的算法原理做了一个总结.这里我们就从实用的角度对scikit-learn中Adaboost类库的使用做一个小结,重点对调参的注意事项做 ...
- 06_特征选择,特征选择的原因,sklearn特征选择API
1.特征选择 在现实生活中,一个对象往往具有很多属性(以下称为特征),这些特征大致可以被分成三种主要的类型: 1.相关特征: 对于学习任务(例如分类问题)有帮助,可以提升学习算法的效果: 2.无关特征 ...
- python xgboost用法_XGBoost类库使用小结
在XGBoost算法原理小结中,我们讨论了XGBoost的算法原理,这一片我们讨论如何使用XGBoost的Python类库,以及一些重要参数的意义和调参思路. 1. XGBoost类库概述 XGBoo ...
- XGBoost类库使用小结
在XGBoost算法原理小结中,我们讨论了XGBoost的算法原理,这一片我们讨论如何使用XGBoost的Python类库,以及一些重要参数的意义和调参思路. 本文主要参考了XGBoost的Pytho ...
- scikit-learn 逻辑回归类库使用小结
之前在逻辑回归原理小结这篇文章中,对逻辑回归的原理做了小结.这里接着对scikit-learn中逻辑回归类库的我的使用经验做一个总结.重点讲述调参中要注意的事项. 1. 概述 在scikit-lear ...
- scikit-learn 朴素贝叶斯类库使用小结
之前在朴素贝叶斯算法原理小结这篇文章中,对朴素贝叶斯分类算法的原理做了一个总结.这里我们就从实战的角度来看朴素贝叶斯类库.重点讲述scikit-learn 朴素贝叶斯类库的使用要点和参数选择. 1. ...
- scikit-learn决策树算法类库使用小结及可视化方法
2019独角兽企业重金招聘Python工程师标准>>> 1. scikit-learn决策树算法类库介绍 scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法 ...
- scikit-learn决策树算法类库使用小结
之前对决策树的算法原理做了总结,包括决策树算法原理(上)和决策树算法原理(下).今天就从实践的角度来介绍决策树算法,主要是讲解使用scikit-learn来跑决策树算法,结果的可视化以及一些参数调参的 ...
- 决策树留一法python代码_ScikitLearn决策树算法类库使用小结
1 scikit-learn决策树算法类库介绍 scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法,既可以做分类,又可以做回归.分类决策树的类对应的是DecisionTree ...
最新文章
- mysql查看当前实时连接数
- 实现AGI,强化学习就够了?Sutton:奖励机制足够实现各种目标
- python识别简单训练模型_Python3+OpenCV实现简单交通标志识别
- Mui --- app与服务器之间的交互原理、mui ajax使用
- java解析xml文件四种方式介绍、性能比较和基本使用方法
- 基于图结构的图合成与差分隐私【LDPGen】
- 深度学习笔记(11) 超参数调试
- C雨涵课后习题(18)
- 数据结构—链表-建立单链表
- Android 设备上可以实现 3D Touch 吗?| 原力计划
- oracle正则表达式
- android删除未知字符,如何删除Android Studio中所有配置的未使用字符串资源?
- 群晖修改php文件系统,群晖6.2版本修改eSATA挂载NTFS硬盘设置方法
- 计算机桌面声音图标,声音图标不见了,教您电脑声音图标不见了如何解决
- [moment 使用]-javascript使用
- 小米路由器 你的连接不是专用连接
- 关于学校订单班的那些事
- thinkphp5学习路程 三 数据库操作
- MERGE操作学习总结
- GDKOI2018爆炸记