Embedded嵌入法

嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行

先使 用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征

这些权值系数往往代表了特征对于模型的某种贡献或某种重要性

这些权值系 数往往代表了特征对于模型的某种贡献或某种重要性

缺点

过滤法中使用的统计量可以使用统计知识和常识查找范围(如p值应当低于显著性水平0.05),
而嵌入法中使用 的权值系数却没有这样的范围可找

或许需要学习曲线,或者根据模型本身的某些性质去判断这个超参数的最佳值

方法:

sklearn.feature_selection.SelectFromModel (estimator, threshold=None, prefit=False, norm_order=1, max_features=None)

SelectFromModel是一个元变换器

可以与任何在拟合后具有coef_,feature_importances_属性或参数中可选惩罚项的评估器一起使用

比如随机森林和树模型就具有属性feature_importances_逻辑回归就带有l1和l2惩罚 项,线性支持向量机也支持l2惩罚项

参数 说明

  • estimator 使用的模型评估器,只要是带feature_importances_或者coef_属性,或带有l1和l2惩罚 项的模型都可以使用
    threshold 特征重要性的阈值,重要性低于这个阈值的特征都将被删除
  • prefit 默认False,判断是否将实例化后的模型直接传递给构造函数。如果为True,则必须直接 调用fit和transform,不能使用fit_transform,并且SelectFromModel不能与 cross_val_score,GridSearchCV和克隆估计器的类似实用程序一起使用。
  • norm_order k可输入非零整数,正无穷,负无穷,默认值为1 在评估器的coef_属性高于一维的情况下,用于过滤低于阈值的系数的向量的范数的阶 数。
  • max_features 在阈值设定下,要选择的最大特征数。要禁用阈值并仅根据max_features选择,请设置 threshold = -np.inf
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier as RFCRFC_ = RFC(n_estimators =10,random_state=0)#随机森林实例化
X_embedded = SelectFromModel(RFC_,threshold=0.005).fit_transform(X,y)#实例化selectFromModel,使用的元数据
#在这里我只想取出来有限的特征。0.005这个阈值对于有780个特征的数据来说,是非常高的阈值,因为平均每个特征
#只能够分到大约0.001的feature_importances_(每个特征分到的数值:1/780)
X_embedded.shape
__________________________
(42000,47)
__________________________
#模型的维度明显被降低了
#同样的,我们也可以画学习曲线来找最佳阈值
#======【TIME WARNING:10 mins】======#
import numpy as np
import matplotlib.pyplot as plt
RFC_.fit(X,y).feature_importances_threshold = np.linspace(0,(RFC_.fit(X,y).feature_importances_).max(),20)
#linspace(start,end,取出的数量)
score = []
for i in threshold:X_embedded = SelectFromModel(RFC_,threshold=i).fit_transform(X,y)once = cross_val_score(RFC_,X_embedded,y,cv=5).mean()#交叉验证score.append(once)
plt.plot(threshold,score)
plt.show()

X_embedded = SelectFromModel(RFC_,threshold=0.00067).fit_transform(X,y)
X_embedded.shape
_________________
(42000,392)
_________________
cross_val_score(RFC_,X_embedded,y,cv=5).mean()
_________________
0.9399

比我们在方差过滤的时候选择中位数过滤出来的结果392列要小,并且 交叉验证分数0.9399高于方差过滤后的结果0.9388,这是由于嵌入法比方差过滤更具体到模型的表现的缘故

换一 个算法,使用同样的阈值,

使用细化的学习曲线来找到最佳值:

score2 = []
for i in np.linspace(0,0.00134,20):X_embedded = SelectFromModel(RFC_,threshold=i).fit_transform(X,y)once = cross_val_score(RFC_,X_embedded,y,cv=5).mean()score2.append(once)
plt.figure(figsize=[20,5])
plt.plot(np.linspace(0,0.00134,20),score2)
plt.xticks(np.linspace(0,0.00134,20))
plt.show()

X_embedded = SelectFromModel(RFC_,threshold=0.000564).fit_transform(X,y)
X_embedded.shape
________________________________
(42000,340)
________________________________
cross_val_score(RFC_,X_embedded,y,cv=5).mean()
________________________________
0.9408335
________________________________
#=====【TIME WARNING:2 min】=====#
#我们可能已经找到了现有模型下的最佳结果,如果我们调整一下随机森林的参数呢?
cross_val_score(RFC(n_estimators=100,random_state=0),X_embedded,y,cv=5).mean()
_______________________________
0.9639528

在嵌入法下,我们很容易就能够实现特征选择的目标:减少计算量,提升模型表现

大型数据中,我们还是会优先考虑过滤法

【机器学习】【特征选择】4.嵌入法Embedded相关推荐

  1. 关于机器学习特征选择的方法总结

    机器学习特征选择的方法总结 1.特征选择的重要性 随着深度学习的发展, 大大缩减了特征提取和设计的任务. 不过, 特征工程依然是各种机器学习应用领域的重要组成部分.其中对于特征选择(排序)的研究对于数 ...

  2. 特征选择之嵌入法、嵌入法、排列重要性

    特征选择之嵌入法.嵌入法.排列重要性 目录 特征选择之嵌入法.嵌入法.排列重要性 嵌入法 排列重要性 嵌入法

  3. python分类预测降低准确率_十分钟掌握python机器学习特征选择

    十分钟掌握python机器学习特征选择-1.jpg (33.2 KB, 下载次数: 0) 2018-6-26 23:01 上传 在机器学习中,特征选择是实践中的一步, 帮你在所有特征中选择对结果贡献最 ...

  4. 机器学习 特征选择篇——python实现MIC(最大信息系数)计算

    机器学习 特征选择篇--python实现MIC(最大信息系数)计算 摘要 python实现代码 计算实例 摘要 MIC(最大信息系数) 可以检测变量之间的非线性相关性,常用于特征工程中的特征选择,即通 ...

  5. 特征选择—过滤法(Filter)、嵌入法(Embedded)和包装法(Wrapper)

    一.过滤法(Filter) 目的:在维持算法表现的前提下,帮助算法们降低计算成本 特点:独立操作,不与后续分类(或者回归)模型相关 过程: 目标对象:需要遍历特征或升维的算法.最近邻算法KNN,支持向 ...

  6. 机器学习特征选择方法

    文章目录 前言 特征选择 过滤法 Pearson系数 卡方检验 互信息和最大信息系数 距离相关系数 方差选择法 包装法 嵌入法 总结 前言 最近在看吴恩达的深度学习机器学习课程.地址:deeplear ...

  7. 独家 | 使用Python实现机器学习特征选择的4种方法(附代码)

    作者:Sugandha Lahoti 翻译:李洁 校对:杨光 本文约3500字,建议阅读13分钟. 本文中,我们将研究从数据集中选择特征的不同方法;同时通过使用Python中Scikit-learn  ...

  8. dataframe 选择输出_使用 Python 实现机器学习特征选择的 4 种方法

    (给数据分析与开发加星标,提升数据技能) 英文:Sugandha Lahoti,转自:数据派(ID:datapi),翻译:李洁 注:本文节选自Ankit Dixit所著的<集成机器学习>( ...

  9. python文本特征选择,机器学习--特征选择(Python实现)

    特征选择就是从原始特征中选取一些最有效的特征来降低维度,,提高模型泛化能力减低过拟合的过程,主要目的是剔除掉无关特征和冗余特征,选出最优特征子集: 常见的特征选择方法可以分为3类:过滤式(filter ...

  10. 收藏 | 机器学习特征选择方法总结

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:七月在线 AI博士笔记系列推荐 周志华<机器学习> ...

最新文章

  1. 只读事务上下文_我可以/应该在事务上下文中使用并行流吗?
  2. Linux程序设计实验项目六,《linux程序设计》实验教学大纲
  3. 三星手机 java_如何在三星手机上安装Java ME应用程序?
  4. cannot import name UnrewindableBodyError
  5. linux 日志按大小切割_linux下nohup日志切割方案
  6. 动态构建LINQ表达式
  7. Linux学习之CentOS6下Mysql数据库的安装与配置
  8. linux设备模型之mmc子系统
  9. 在Fedora 25中更换openjdk为oracle jdk
  10. Integer与int的种种比较你知道多少?
  11. OC中关于NSDate详解及获取当前时间等常用操作
  12. js中的同步与异步的理解
  13. 13-24.产品经理入门到精通(二)
  14. 机器学习基础概念(三):归纳与演绎
  15. android是什么意思
  16. 在电脑上如何直接下载秒拍的视频?
  17. 博客外链应该要怎么养
  18. 修改.lnk文件的后缀
  19. Java集合是什么?
  20. 机器人基础技术教学_乒乓球推挡技术完整攻略[基础教学]

热门文章

  1. GeoServer发布OSM地图
  2. 51单片机数码管显示数字
  3. 房屋水电煤气省钱秘籍
  4. 《艰难的制造》:4星。基本是关于制造业的报告文学。严重剧透。
  5. 内存错误分析工具----asan(AddressSanitizer)的介绍和使用
  6. Ir_scheduler模块
  7. 华为往事(十八)--CC08 STP:华为抢占制高点
  8. SpringCloud 微服务网关Gateway常用限流算法以及简单实现
  9. 【Linux系列文章】基础与Vim
  10. 华为畅享z和荣耀x10哪个好?