【机器学习】【特征选择】4.嵌入法Embedded
Embedded嵌入法
嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行
先使 用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征
这些权值系数往往代表了特征对于模型的某种贡献或某种重要性
这些权值系 数往往代表了特征对于模型的某种贡献或某种重要性
缺点
过滤法中使用的统计量可以使用统计知识和常识来查找范围(如p值应当低于显著性水平0.05),
而嵌入法中使用 的权值系数却没有这样的范围可找
或许需要学习曲线,或者根据模型本身的某些性质去判断这个超参数的最佳值
方法:
sklearn.feature_selection.SelectFromModel (estimator, threshold=None, prefit=False, norm_order=1, max_features=None)
SelectFromModel是一个元变换器
可以与任何在拟合后具有coef_,feature_importances_属性或参数中可选惩罚项的评估器一起使用
比如随机森林和树模型就具有属性feature_importances_,逻辑回归就带有l1和l2惩罚 项,线性支持向量机也支持l2惩罚项
参数 说明
- estimator 使用的模型评估器,只要是带feature_importances_或者coef_属性,或带有l1和l2惩罚 项的模型都可以使用
threshold 特征重要性的阈值,重要性低于这个阈值的特征都将被删除 - prefit 默认False,判断是否将实例化后的模型直接传递给构造函数。如果为True,则必须直接 调用fit和transform,不能使用fit_transform,并且SelectFromModel不能与 cross_val_score,GridSearchCV和克隆估计器的类似实用程序一起使用。
- norm_order k可输入非零整数,正无穷,负无穷,默认值为1 在评估器的coef_属性高于一维的情况下,用于过滤低于阈值的系数的向量的范数的阶 数。
- max_features 在阈值设定下,要选择的最大特征数。要禁用阈值并仅根据max_features选择,请设置 threshold = -np.inf
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier as RFCRFC_ = RFC(n_estimators =10,random_state=0)#随机森林实例化
X_embedded = SelectFromModel(RFC_,threshold=0.005).fit_transform(X,y)#实例化selectFromModel,使用的元数据
#在这里我只想取出来有限的特征。0.005这个阈值对于有780个特征的数据来说,是非常高的阈值,因为平均每个特征
#只能够分到大约0.001的feature_importances_(每个特征分到的数值:1/780)
X_embedded.shape
__________________________
(42000,47)
__________________________
#模型的维度明显被降低了
#同样的,我们也可以画学习曲线来找最佳阈值
#======【TIME WARNING:10 mins】======#
import numpy as np
import matplotlib.pyplot as plt
RFC_.fit(X,y).feature_importances_threshold = np.linspace(0,(RFC_.fit(X,y).feature_importances_).max(),20)
#linspace(start,end,取出的数量)
score = []
for i in threshold:X_embedded = SelectFromModel(RFC_,threshold=i).fit_transform(X,y)once = cross_val_score(RFC_,X_embedded,y,cv=5).mean()#交叉验证score.append(once)
plt.plot(threshold,score)
plt.show()
X_embedded = SelectFromModel(RFC_,threshold=0.00067).fit_transform(X,y)
X_embedded.shape
_________________
(42000,392)
_________________
cross_val_score(RFC_,X_embedded,y,cv=5).mean()
_________________
0.9399
比我们在方差过滤的时候选择中位数过滤出来的结果392列要小,并且 交叉验证分数0.9399高于方差过滤后的结果0.9388,这是由于嵌入法比方差过滤更具体到模型的表现的缘故
换一 个算法,使用同样的阈值,
使用细化的学习曲线来找到最佳值:
score2 = []
for i in np.linspace(0,0.00134,20):X_embedded = SelectFromModel(RFC_,threshold=i).fit_transform(X,y)once = cross_val_score(RFC_,X_embedded,y,cv=5).mean()score2.append(once)
plt.figure(figsize=[20,5])
plt.plot(np.linspace(0,0.00134,20),score2)
plt.xticks(np.linspace(0,0.00134,20))
plt.show()
X_embedded = SelectFromModel(RFC_,threshold=0.000564).fit_transform(X,y)
X_embedded.shape
________________________________
(42000,340)
________________________________
cross_val_score(RFC_,X_embedded,y,cv=5).mean()
________________________________
0.9408335
________________________________
#=====【TIME WARNING:2 min】=====#
#我们可能已经找到了现有模型下的最佳结果,如果我们调整一下随机森林的参数呢?
cross_val_score(RFC(n_estimators=100,random_state=0),X_embedded,y,cv=5).mean()
_______________________________
0.9639528
在嵌入法下,我们很容易就能够实现特征选择的目标:减少计算量,提升模型表现
大型数据中,我们还是会优先考虑过滤法
【机器学习】【特征选择】4.嵌入法Embedded相关推荐
- 关于机器学习特征选择的方法总结
机器学习特征选择的方法总结 1.特征选择的重要性 随着深度学习的发展, 大大缩减了特征提取和设计的任务. 不过, 特征工程依然是各种机器学习应用领域的重要组成部分.其中对于特征选择(排序)的研究对于数 ...
- 特征选择之嵌入法、嵌入法、排列重要性
特征选择之嵌入法.嵌入法.排列重要性 目录 特征选择之嵌入法.嵌入法.排列重要性 嵌入法 排列重要性 嵌入法
- python分类预测降低准确率_十分钟掌握python机器学习特征选择
十分钟掌握python机器学习特征选择-1.jpg (33.2 KB, 下载次数: 0) 2018-6-26 23:01 上传 在机器学习中,特征选择是实践中的一步, 帮你在所有特征中选择对结果贡献最 ...
- 机器学习 特征选择篇——python实现MIC(最大信息系数)计算
机器学习 特征选择篇--python实现MIC(最大信息系数)计算 摘要 python实现代码 计算实例 摘要 MIC(最大信息系数) 可以检测变量之间的非线性相关性,常用于特征工程中的特征选择,即通 ...
- 特征选择—过滤法(Filter)、嵌入法(Embedded)和包装法(Wrapper)
一.过滤法(Filter) 目的:在维持算法表现的前提下,帮助算法们降低计算成本 特点:独立操作,不与后续分类(或者回归)模型相关 过程: 目标对象:需要遍历特征或升维的算法.最近邻算法KNN,支持向 ...
- 机器学习特征选择方法
文章目录 前言 特征选择 过滤法 Pearson系数 卡方检验 互信息和最大信息系数 距离相关系数 方差选择法 包装法 嵌入法 总结 前言 最近在看吴恩达的深度学习机器学习课程.地址:deeplear ...
- 独家 | 使用Python实现机器学习特征选择的4种方法(附代码)
作者:Sugandha Lahoti 翻译:李洁 校对:杨光 本文约3500字,建议阅读13分钟. 本文中,我们将研究从数据集中选择特征的不同方法;同时通过使用Python中Scikit-learn ...
- dataframe 选择输出_使用 Python 实现机器学习特征选择的 4 种方法
(给数据分析与开发加星标,提升数据技能) 英文:Sugandha Lahoti,转自:数据派(ID:datapi),翻译:李洁 注:本文节选自Ankit Dixit所著的<集成机器学习>( ...
- python文本特征选择,机器学习--特征选择(Python实现)
特征选择就是从原始特征中选取一些最有效的特征来降低维度,,提高模型泛化能力减低过拟合的过程,主要目的是剔除掉无关特征和冗余特征,选出最优特征子集: 常见的特征选择方法可以分为3类:过滤式(filter ...
- 收藏 | 机器学习特征选择方法总结
点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:七月在线 AI博士笔记系列推荐 周志华<机器学习> ...
最新文章
- 只读事务上下文_我可以/应该在事务上下文中使用并行流吗?
- Linux程序设计实验项目六,《linux程序设计》实验教学大纲
- 三星手机 java_如何在三星手机上安装Java ME应用程序?
- cannot import name UnrewindableBodyError
- linux 日志按大小切割_linux下nohup日志切割方案
- 动态构建LINQ表达式
- Linux学习之CentOS6下Mysql数据库的安装与配置
- linux设备模型之mmc子系统
- 在Fedora 25中更换openjdk为oracle jdk
- Integer与int的种种比较你知道多少?
- OC中关于NSDate详解及获取当前时间等常用操作
- js中的同步与异步的理解
- 13-24.产品经理入门到精通(二)
- 机器学习基础概念(三):归纳与演绎
- android是什么意思
- 在电脑上如何直接下载秒拍的视频?
- 博客外链应该要怎么养
- 修改.lnk文件的后缀
- Java集合是什么?
- 机器人基础技术教学_乒乓球推挡技术完整攻略[基础教学]