【机器学习】【特征选择】4.嵌入法Embedded

Embedded嵌入法

嵌入法是一种让算法自己决定使用哪些特征的方法，即特征选择和算法训练同时进行

先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据权值系数从大到小选择特征

这些权值系数往往代表了特征对于模型的某种贡献或某种重要性

这些权值系数往往代表了特征对于模型的某种贡献或某种重要性

缺点

过滤法中使用的统计量可以使用统计知识和常识来查找范围（如p值应当低于显著性水平0.05），
而嵌入法中使用的权值系数却没有这样的范围可找

或许需要学习曲线，或者根据模型本身的某些性质去判断这个超参数的最佳值

方法：

sklearn.feature_selection.SelectFromModel (estimator, threshold=None, prefit=False, norm_order=1, max_features=None)

SelectFromModel是一个元变换器

可以与任何在拟合后具有coef_，feature_importances_属性或参数中可选惩罚项的评估器一起使用

比如随机森林和树模型就具有属性feature_importances_，逻辑回归就带有l1和l2惩罚项，线性支持向量机也支持l2惩罚项

参数说明

estimator 使用的模型评估器，只要是带feature_importances_或者coef_属性，或带有l1和l2惩罚项的模型都可以使用
threshold 特征重要性的阈值，重要性低于这个阈值的特征都将被删除
prefit 默认False，判断是否将实例化后的模型直接传递给构造函数。如果为True，则必须直接调用fit和transform，不能使用fit_transform，并且SelectFromModel不能与 cross_val_score，GridSearchCV和克隆估计器的类似实用程序一起使用。
norm_order k可输入非零整数，正无穷，负无穷，默认值为1 在评估器的coef_属性高于一维的情况下，用于过滤低于阈值的系数的向量的范数的阶数。
max_features 在阈值设定下，要选择的最大特征数。要禁用阈值并仅根据max_features选择，请设置 threshold = -np.inf

from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier as RFCRFC_ = RFC(n_estimators =10,random_state=0)#随机森林实例化
X_embedded = SelectFromModel(RFC_,threshold=0.005).fit_transform(X,y)#实例化selectFromModel,使用的元数据
#在这里我只想取出来有限的特征。0.005这个阈值对于有780个特征的数据来说，是非常高的阈值，因为平均每个特征
#只能够分到大约0.001的feature_importances_（每个特征分到的数值：1/780）
X_embedded.shape
__________________________
(42000,47)
__________________________
#模型的维度明显被降低了
#同样的，我们也可以画学习曲线来找最佳阈值
#======【TIME WARNING：10 mins】======#
import numpy as np
import matplotlib.pyplot as plt
RFC_.fit(X,y).feature_importances_threshold = np.linspace(0,(RFC_.fit(X,y).feature_importances_).max(),20)
#linspace(start,end,取出的数量)
score = []
for i in threshold:X_embedded = SelectFromModel(RFC_,threshold=i).fit_transform(X,y)once = cross_val_score(RFC_,X_embedded,y,cv=5).mean()#交叉验证score.append(once)
plt.plot(threshold,score)
plt.show()

X_embedded = SelectFromModel(RFC_,threshold=0.00067).fit_transform(X,y)
X_embedded.shape
_________________
(42000,392)
_________________
cross_val_score(RFC_,X_embedded,y,cv=5).mean()
_________________
0.9399

比我们在方差过滤的时候选择中位数过滤出来的结果392列要小，并且交叉验证分数0.9399高于方差过滤后的结果0.9388，这是由于嵌入法比方差过滤更具体到模型的表现的缘故

换一个算法，使用同样的阈值，

使用细化的学习曲线来找到最佳值：

score2 = []
for i in np.linspace(0,0.00134,20):X_embedded = SelectFromModel(RFC_,threshold=i).fit_transform(X,y)once = cross_val_score(RFC_,X_embedded,y,cv=5).mean()score2.append(once)
plt.figure(figsize=[20,5])
plt.plot(np.linspace(0,0.00134,20),score2)
plt.xticks(np.linspace(0,0.00134,20))
plt.show()

X_embedded = SelectFromModel(RFC_,threshold=0.000564).fit_transform(X,y)
X_embedded.shape
________________________________
(42000,340)
________________________________
cross_val_score(RFC_,X_embedded,y,cv=5).mean()
________________________________
0.9408335
________________________________
#=====【TIME WARNING：2 min】=====#
#我们可能已经找到了现有模型下的最佳结果，如果我们调整一下随机森林的参数呢？
cross_val_score(RFC(n_estimators=100,random_state=0),X_embedded,y,cv=5).mean()
_______________________________
0.9639528

在嵌入法下，我们很容易就能够实现特征选择的目标：减少计算量，提升模型表现

大型数据中，我们还是会优先考虑过滤法