算法简述

ExtraTrees(极度随机树)，与随机森林(Random Forest)是一样的，都是决策树的集成模型，区别在于：分叉的方式

随机森林依据Gini或信息熵
ExtraTrees是随机，没错纯随机，随机的特征构建边，随机的阈值来分叉

在筛选特征时也可以使用随机森林，但是在容易过拟合的情况下纯随机的ExtraTrees表现会更好，因为无形中表示：在随机的场景下(模拟未知分布的测试集)某些特征仍旧表示出强势的区分度，证明这个特征很重要

示例代码

import pandas as pddef load_data():"""用来生成训练、测试数据"""from sklearn.datasets import make_classificationdata_x, data_y = make_classification(n_samples=1000, n_classes=4, n_features=10, n_informative=8)df_x = pd.DataFrame(data_x, columns=['f_1', 'f_2', 'f_3', 'f_4', 'f_5', 'f_6', "f_7", "f_8", "f_9", "f_10"])df_y = pd.Series(data_y)return df_x, df_ydef select_from_model(x_data, y_data):from sklearn.feature_selection import SelectFromModelfrom sklearn.ensemble import ExtraTreesClassifier# 使用ExtraTrees作为特征筛选的依据sf_model: SelectFromModel = SelectFromModel(ExtraTreesClassifier())sf_model.fit(x_data, y_data)print("建议保留的特征: ", x_data.columns[sf_model.get_support()])print("特征重要性：", sf_model.estimator_.feature_importances_)# sf_model.threshold_# sf_model.get_support()  # get_support函数来得到到底是那几列被选中了return sf_model.transform(x_data)  # 得到筛选的特征if __name__ == '__main__':value_x, value_y = load_data()select_from_model(value_x, value_y)  # 带特征的筛选x_data,y_data

参考文章

RandomForestClassifier vs ExtraTreesClassifier in scikit learn：https://stackoverflow.com/questions/22409855/randomforestclassifier-vs-extratreesclassifier-in-scikit-learn
Gini Impurity细节与案例：https://bambielli.com/til/2017-10-29-gini-impurity/
SelectFromModel的文档：https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.SelectFromModel.html
ExtraTreesClassifier的文档：https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.ExtraTreesClassifier.html

特征筛选11——ExtraTrees筛选特征相关推荐

R语言使用caret包的rfe函数进行特征筛选、选择、特征消除RFE（Recursive Feature Elimination）进行特征筛选（feature selection）
R语言使用caret包的rfe函数进行特征筛选.选择.特征消除RFE(Recursive Feature Elimination)进行特征筛选(feature selection) 目录
QIIME 2用户文档. 11数据筛选Filtering data(2018.11)
文章目录前情提要 QIIME 2用户文档. 11数据筛选下载实验相关数据过滤特征表按数据量过滤偶然因素的过滤基于索引的过滤基于元数据的筛选基于物种过滤表和序列过滤序列过滤距离矩阵 ...
基于LBP纹理特征计算GLCM的纹理特征统计量+SVM/RF识别纹理图片
作者 | Raini 出品 | 北京图特摩斯科技有限公司 (thutmose.cn) 说在前头: 局部特征检测方法斑点Blob检测,LoG检测 , DoG,DoH检测,SIFT算法,SUFT算法边 ...
什么是特征工程？如何进行特征工程？
1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中 ...
特征工程——推荐系统里的特征工程
原文:推荐系统里的特征工程个性化推荐系统 Personalized recommender system 比其他的机器学习方法更依赖特征工程,所以我拿它来当作问题的背景,结合我之前做过的一个推荐系统 ...
计算机虚拟筛选公司,虚拟筛选服务
虚拟筛选服务通常,药物筛选有三种方法:动物模型.高通量筛选和虚拟筛选.动物模型筛选药物这种方法具有成本高.效率低.速度慢.样品需要量大等特点.高通量筛选方法实现了自动化操作.检测灵敏快速,但是待筛选 ...
特征工程系列：自动化特征构造
特征工程系列:自动化特征构造原创: JunLiang 木东居士今天 0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.由此可见,特征工程在机器学习中占有相当重要的 ...
特征构造系列3：笛卡尔乘积特征构造以及遗传编程特征构造
文章目录 1.笛卡尔乘积特征构造 1.1 原理 1.2 类别特征进行笛卡尔乘积特征组合 1.3 连续值特征进行笛卡尔乘积特征组合 2.遗传编程特征构造 2.1 原理 2.2 gplearn 2.3 遗 ...
ML之FE：基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征、利用featuretools工具实现自动特征生成)
ML之FE:基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征衍生(手动设计新特征.利用featuretools工具实现自动特征生成) 目录基于自定义数据集(银行客户信息贷款和赔偿)对比实现特征 ...

特征筛选11——ExtraTrees筛选特征

算法简述

示例代码

参考文章

特征筛选11——ExtraTrees筛选特征相关推荐

最新文章

热门文章