ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/SF)进行特征选择(mushroom蘑菇数据集二分类预测)最全案例应用
ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/SF)进行特征选择(mushroom蘑菇数据集二分类预测)案例应用
利用多种特征筛选技术(PCC_SVMC/chi2_RF/MIC/DiC/RF单模、RFE_RLasso/RF/SF_ETreesC)是否毒性(二分类)最全案例
目录
特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/SF)进行特征选择(mushroom蘑菇数据集二分类预测)最全案例应用
# 1、定义数据集
# 2、特征工程/数据预处理
# 2.1、统计各特征的缺失值占比
# 2.2、分离特征与标签
# 2.3、分析目标标签变量
# 2.4、特征编码化
特征数据集执行OneHotEncoding编码、标签数据执行LE化
# 2.5、数据归一化:-1~1
# 3、特征筛选+模型训练与评估
# 3.1、切分数据集
# 3.2、模型训练与评估
# T1、LoR模型、LinearSVC模型、DTC模型、RF模型
# 对决策树模型可视化树结构图
# 3.3、特征筛选
# T1、过滤式filter:常用SelectKBest选择器,PCC_SVMC/chi2_RF/IG/MI/IV/MIC/DiC/RF
# T1.0、基于方差阈值的筛选(只分析自己):选择前Top_i或移除方差小于 0.2的列
# T1.1、利用皮尔森相关系数PCC筛选降维并基于SVM模型测试评估
# T1.2、利用卡方检验chi2自动筛选降维并基于RF模型测试评估
# T1.3、利用基于信息相关的方法
# T1.3.1、利用IG信息增益选择法
# T1.3.2、利用MI互信息选择法
# T1.3.3、利用信息价值IV选择法
# T1.3.4、利用MIC最大互信息系数计算特征与标签之间的距离相关系数
# T1.4、利用DiC距离相关系数计算特征与标签之间的距离相关系数:Distance Correlation,计算特征之间的距离相关系数
# T1.5、利用RF模型逐单个对特征建模计算平均ACC
# T2、包装式wrapper:常用RFE,如RFE_RF
# T2.1、利用递归特征消除(RFE)自动筛选降维并基于RF模型测试评估:特别耗时,2分钟
# T3、嵌入式Embedded:常用SelectFromModel,如Lasso/RF/SF_ETreesC
# T3.1、利用Lasso正则化器算法交叉验证并可视化特征重要性
# T3.2、树模型之RF基于RF模型特征重要性的筛选降维并测试评估
# T3.3、利用通用性内置优化器SF(基于ETC)自动筛选降维并基于RF模型测试评估
相关文章
ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/SF)进行特征选择(mushroom蘑菇数据集二分类预测)最全案例应用
ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/SF)进行特征选择(mushroom蘑菇数据集二分类预测)最全案例实现代码
特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/SF)进行特征选择(mushroom蘑菇数据集二分类预测)最全案例应用
# 1、定义数据集
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8124 entries, 0 to 8123
Data columns (total 23 columns):# Column Non-Null Count Dtype
--- ------ -------------- ----- 0 class 8124 non-null object1 cap-shape 8124 non-null object2 cap-surface 8124 non-null object3 cap-color 8124 non-null object4 bruises 8124 non-null object5 odor 8124 non-null object6 gill-attachment 8124 non-null object7 gill-spacing 8124 non-null object8 gill-size 8124 non-null object9 gill-color 8124 non-null object10 stalk-shape 8124 non-null object11 stalk-root 8124 non-null object12 stalk-surface-above-ring 8124 non-null object13 stalk-surface-below-ring 8124 non-null object14 stalk-color-above-ring 8124 non-null object15 stalk-color-below-ring 8124 non-null object16 veil-type 8124 non-null object17 veil-color 8124 non-null object18 ring-number 8124 non-null object19 ring-type 8124 non-null object20 spore-print-color 8124 non-null object21 population 8124 non-null object22 habitat 8124 non-null object
dtypes: object(23)
memory usage: 1.4+ MB
Noneclass cap-shape cap-surface ... spore-print-color population habitat
0 p x s ... k s u
1 e x s ... n n g
2 e b s ... n n m
3 p x y ... k s u
4 e x s ... n a g[5 rows x 23 columns]
(8124, 23)
# 2、特征工程/数据预处理
# 2.1、统计各特征的缺失值占比
percent_missing
class 0.0
cap-shape 0.0
cap-surface 0.0
cap-color 0.0
bruises 0.0
odor 0.0
gill-attachment 0.0
gill-spacing 0.0
gill-size 0.0
gill-color 0.0
stalk-shape 0.0
stalk-root 0.0
stalk-surface-above-ring 0.0
stalk-surface-below-ring 0.0
stalk-color-above-ring 0.0
stalk-color-below-ring 0.0
veil-type 0.0
veil-color 0.0
ring-number 0.0
ring-type 0.0
spore-print-color 0.0
population 0.0
habitat 0.0
# 2.2、分离特征与标签
# 2.3、分析目标标签变量
e 4208
p 3916
Name: class, dtype: int64
# 2.4、特征编码化
特征数据集执行OneHotEncoding编码、标签数据执行LE化
df_X2dum_cols 117 Index(['cap-shape_b', 'cap-shape_c', 'cap-shape_f', 'cap-shape_k','cap-shape_s', 'cap-shape_x', 'cap-surface_f', 'cap-surface_g','cap-surface_s', 'cap-surface_y',...'population_s', 'population_v', 'population_y', 'habitat_d','habitat_g', 'habitat_l', 'habitat_m', 'habitat_p', 'habitat_u','habitat_w'],dtype='object', length=117)cap-shape_b cap-shape_c cap-shape_f ... habitat_p habitat_u habitat_w
0 0 0 0 ... 0 1 0
1 0 0 0 ... 0 0 0
2 1 0 0 ... 0 0 0
3 0 0 0 ... 0 1 0
4 0 0 0 ... 0 0 0[5 rows x 117 columns]
[1 0 0 ... 0 1 0]
# 2.5、数据归一化:-1~1
df_X2dum2stanard [[-0.24272523 -0.02219484 -0.79620985 ... -0.40484176 4.59086996-0.15558197][-0.24272523 -0.02219484 -0.79620985 ... -0.40484176 -0.21782364-0.15558197][ 4.11988487 -0.02219484 -0.79620985 ... -0.40484176 -0.21782364-0.15558197]...[-0.24272523 -0.02219484 1.2559503 ... -0.40484176 -0.21782364-0.15558197][-0.24272523 -0.02219484 -0.79620985 ... -0.40484176 -0.21782364-0.15558197][-0.24272523 -0.02219484 -0.79620985 ... -0.40484176 -0.21782364-0.15558197]]
# 3、特征筛选+模型训练与评估
# 3.1、切分数据集
# 3.2、模型训练与评估
# T1、LoR模型、LinearSVC模型、DTC模型、RF模型
LinearSVC time_cost: 0.140625
LogisticRegression auc_s: 1.0
LogisticRegression time_cost: 0.0625
DecisionTreeClassifier auc_s: 1.0
DecisionTreeClassifier time_cost: 0.0625
RandomForestClassifier auc_s: 1.0
RandomForestClassifier time_cost: 1.546875
[[1274 0][ 0 1164]]precision recall f1-score support0 1.00 1.00 1.00 12741 1.00 1.00 1.00 1164accuracy 1.00 2438macro avg 1.00 1.00 1.00 2438
weighted avg 1.00 1.00 1.00 2438LinearSVC time_cost: 0.21875
LogisticRegression auc_s: 1.0
[[1274 0][ 0 1164]]precision recall f1-score support0 1.00 1.00 1.00 12741 1.00 1.00 1.00 1164accuracy 1.00 2438macro avg 1.00 1.00 1.00 2438
weighted avg 1.00 1.00 1.00 2438LogisticRegression time_cost: 0.125
DecisionTreeClassifier auc_s: 1.0
[[1274 0][ 0 1164]]precision recall f1-score support0 1.00 1.00 1.00 12741 1.00 1.00 1.00 1164accuracy 1.00 2438macro avg 1.00 1.00 1.00 2438
weighted avg 1.00 1.00 1.00 2438DecisionTreeClassifier time_cost: 0.0625
RandomForestClassifier auc_s: 1.0
[[1274 0][ 0 1164]]precision recall f1-score support0 1.00 1.00 1.00 12741 1.00 1.00 1.00 1164accuracy 1.00 2438macro avg 1.00 1.00 1.00 2438
weighted avg 1.00 1.00 1.00 2438RandomForestClassifier time_cost: 1.5625
# 对决策树模型可视化树结构图
# 3.3、特征筛选
# T1、过滤式filter:常用SelectKBest选择器,PCC_SVMC/chi2_RF/IG/MI/IV/MIC/DiC/RF
# T1、过滤式filter:常用SelectKBest选择器
'''
单变量特征选择是一种统计方法,用于选择与对应标签关系最强的特征
根据我们的需要,我们提供不同类型的评分功能:
分类:chi2, f_classif, mutual_info_classif
回归:f_regression, mutual_info_regression
核心原理:通过评估每个特征的重要性,从而选择出最相关的特征来进行建模
(1)、SelectKBest、SelectPercentile:这两种方法都是使用 univariate statistics 来评估每个特征的重要性,然后根据评分选择前 k 个或者前百分之几的特征。
SelectKBest 是选择评分最高的 k 个特征,而 SelectPercentile 是选择评分最高的前百分之几的特征。
(2)、SelectFpr、SelectFdr、SelectFwe:分别是基于假阳性率(false positive rate)、错误发现率(false discovery rate)、错误拒绝率(false negative rate)来进行特征选择的。
SelectFpr 是控制假阳性率的特征选择方法,SelectFdr 是控制错误发现率的特征选择方法,SelectFwe 是控制错误拒绝率的特征选择方法。
(3)、GenericUnivariateSelect:这个方法是一个通用的 univariate 特征选择方法,它可以选择不同的统计方法来评估每个特征的重要性,也可以选择不同的策略来选择特征。
'''
# T1.0、基于方差阈值的筛选(只分析自己):选择前Top_i或移除方差小于 0.2的列
FS_filter_byVar-------------------------------feature variance_value
108 population_v 0.250023
94 ring-type_p 0.249897
52 stalk-root_b 0.248791
80 stalk-color-below-ring_w 0.248460
71 stalk-color-above-ring_w 0.247582
5 cap-shape_x 0.247533
27 odor_n 0.245710
50 stalk-shape_t 0.245513
49 stalk-shape_e 0.245513
20 bruises_f 0.242900
# T1.1、利用皮尔森相关系数PCC筛选降维并基于SVM模型测试评估
FS_filter_byPCC_Eval-------------------------------
FS_filter_byPCC-------------------------------feature corr_value
27 odor_n 0.785557
24 odor_f 0.623842
57 stalk-surface-above-ring_k 0.587658
61 stalk-surface-below-ring_k 0.573524
94 ring-type_p 0.540469
36 gill-size_n 0.540024
35 gill-size_b 0.540024
37 gill-color_b 0.538808
21 bruises_t 0.501530
20 bruises_f 0.501530
LinearSVC time_cost: 0.0625
[[1248 26][ 46 1118]]precision recall f1-score support0 0.96 0.98 0.97 12741 0.98 0.96 0.97 1164accuracy 0.97 2438macro avg 0.97 0.97 0.97 2438
weighted avg 0.97 0.97 0.97 2438
# T1.2、利用卡方检验chi2自动筛选降维并基于RF模型测试评估
FS_filter_byChi2-------------------------------feature chi2_value
2 odor_n 2836.187954
1 odor_f 2321.062308
5 stalk-surface-above-ring_k 1986.408494
6 stalk-surface-below-ring_k 1914.371389
4 gill-color_b 1856.849847
3 gill-size_n 1636.606833
9 spore-print-color_h 1560.187561
7 ring-type_l 1392.637385
8 ring-type_p 1213.995219
0 bruises_t 1194.277352
RandomForestClassifier auc_s: 0.9933
RandomForestClassifier time_cost: 2.78125
FS_by_chi2 time_cost: 2.96875
RandomForestClassifier auc_s: 0.9933
[[1248 26][ 31 1133]]precision recall f1-score support0 0.98 0.98 0.98 12741 0.98 0.97 0.98 1164accuracy 0.98 2438macro avg 0.98 0.98 0.98 2438
weighted avg 0.98 0.98 0.98 2438
# T1.3、利用基于信息相关的方法
# T1.3.1、利用IG信息增益选择法
FS_filter_byIG-------------------------------feature IG_value
116 habitat_w 0.999068
105 population_c 0.957724
89 ring-number_t 0.932275
88 ring-number_o 0.929895
38 gill-color_e 0.906661
66 stalk-color-above-ring_e 0.906661
75 stalk-color-below-ring_e 0.906661
102 spore-print-color_w 0.880434
51 stalk-root_? 0.879091
90 ring-type_e 0.875099
# T1.3.2、利用MI互信息选择法
FS_filter_byMI-------------------------------feature MI_value
27 odor_n 0.368413
24 odor_f 0.247482
57 stalk-surface-above-ring_k 0.197414
61 stalk-surface-below-ring_k 0.193523
37 gill-color_b 0.183635
36 gill-size_n 0.162087
35 gill-size_b 0.156707
94 ring-type_p 0.149131
21 bruises_t 0.134601
96 spore-print-color_h 0.134168
# T1.3.3、利用信息价值IV选择法
FS_filter_byIV-------------------------------feature IV_value
82 veil-type_p 0.000000
0 cap-shape_b -0.034662
74 stalk-color-below-ring_c -0.034662
86 veil-color_y -0.034662
85 veil-color_w -0.034662
84 veil-color_o -0.034662
83 veil-color_n -0.034662
81 stalk-color-below-ring_y -0.034662
80 stalk-color-below-ring_w -0.034662
79 stalk-color-below-ring_p -0.034662
# T1.3.4、利用MIC最大互信息系数计算特征与标签之间的距离相关系数
FS_filter_byMIC-------------------------------feature MIC_value
27 odor_n 0.528778
24 odor_f 0.357168
57 stalk-surface-above-ring_k 0.284429
61 stalk-surface-below-ring_k 0.270560
37 gill-color_b 0.269398
35 gill-size_b 0.230154
36 gill-size_n 0.230154
94 ring-type_p 0.222702
96 spore-print-color_h 0.207825
21 bruises_t 0.192379FS_by_MIC_SelectKBest-------------------------------MIC_value P_value
odor_n 0.528778 None
odor_f 0.357168 None
stalk-surface-above-ring_k 0.284429 None
stalk-surface-below-ring_k 0.270560 None
gill-color_b 0.269398 None
... ... ...
cap-shape_c 0.000519 None
cap-shape_f 0.000248 None
stalk-root_b 0.000226 None
stalk-surface-above-ring_y 0.000194 None
veil-type_p 0.000000 None[117 rows x 2 columns]
# T1.4、利用DiC距离相关系数计算特征与标签之间的距离相关系数:Distance Correlation,计算特征之间的距离相关系数
FS_filter_byDic_scipy-------------------------------Dic_value
odor_n 1.785557
ring-type_p 1.540469
gill-size_b 1.540024
bruises_t 1.501530
stalk-surface-above-ring_s 1.491314
stalk-surface-below-ring_s 1.425444
spore-print-color_n 1.416645
spore-print-color_k 1.396832
gill-spacing_w 1.348387
gill-color_n 1.288943distance_corr_byscipy
odor_n 1.785557
ring-type_p 1.540469
gill-size_b 1.540024
bruises_t 1.501530
stalk-surface-above-ring_s 1.491314
... ...
gill-size_n 0.459976
stalk-surface-below-ring_k 0.426476
stalk-surface-above-ring_k 0.412342
odor_f 0.376158
veil-type_p NaN[117 rows x 1 columns]
# T1.5、利用RF模型逐单个对特征建模计算平均ACC
FS_filter_byRFCV-------------------------------importance_value
odor_n 0.6128
odor_f 0.3889
stalk-surface-above-ring_k 0.3429
stalk-surface-below-ring_k 0.3309
gill-size_b 0.2978
ring-type_p 0.2916
gill-color_b 0.2905
gill-size_n 0.2886
bruises_t 0.2518
bruises_f 0.2471importance
odor_n 0.6105
odor_f 0.3875
stalk-surface-above-ring_k 0.3442
stalk-surface-below-ring_k 0.3253
gill-color_b 0.2970
... ...
stalk-surface-above-ring_y -0.0003
stalk-root_b -0.0003
cap-color_p -0.0002
cap-shape_c -0.0001
cap-surface_g -0.0001[117 rows x 1 columns]
# T2、包装式wrapper:常用RFE,如RFE_RF
# T2.1、利用递归特征消除(RFE)自动筛选降维并基于RF模型测试评估:特别耗时,2分钟
FS_wrapper_byRFEonRF_Eval-------------------------------
DecisionTreeClassifier auc_s: 0.9987DecisionTreeClassifier time_cost: 0.015625
overall_accuracy RFE_on_RF: 0.9860541427399507
10 ['odor_f', 'odor_n', 'gill-size_b', 'gill-size_n', 'gill-color_b', 'stalk-shape_t', 'stalk-surface-above-ring_k', 'stalk-surface-below-ring_k', 'ring-type_p', 'spore-print-color_h']
RFE_on_RF, time_cost 119.78125
DecisionTreeClassifier auc_s: 0.9987
[[1274 0][ 34 1130]]precision recall f1-score support0 0.97 1.00 0.99 12741 1.00 0.97 0.99 1164accuracy 0.99 2438macro avg 0.99 0.99 0.99 2438
weighted avg 0.99 0.99 0.99 2438
# T3、嵌入式Embedded:常用SelectFromModel,如Lasso/RF/SF_ETreesC
'''
SelectFromModel基于重要性权重选择特征的元转换器
该方法可以用于所有具有coef_或feature_importances_属性的不同类型的Scikit-learn模型(拟合后)。
与RFE相比,SelectFromModel是一个健壮性较差的解决方案。事实上,SelectFromModel只是基于计算的阈值(不涉及优化迭代过程)删除不太重要的特性。
ETree与RF对比:极端随机树ETree可以产生更少的方差(因此降低了过拟合的风险)。在ETree中,节点被采样而不进行替换。
'''
# T3.1、利用Lasso正则化器算法交叉验证并可视化特征重要性
FS_embeded_byLassoCV_coef_Eval-------------------------------
LassoCV_model.alpha_: 0.0003964898084478883
LassoCV_model.score: 0.9971840741918596
44 ['odor_n', 'odor_l', 'odor_a', 'stalk-root_r', 'stalk-surface-above-ring_y', 'stalk-color-above-ring_c', 'ring-type_f', 'gill-size_b', 'odor_m', 'habitat_w', 'cap-color_c', 'gill-attachment_a', 'spore-print-color_u', 'cap-shape_s', 'stalk-color-below-ring_n', 'cap-color_n', 'cap-surface_f', 'ring-number_n', 'stalk-surface-above-ring_f', 'spore-print-color_n', 'stalk-surface-below-ring_f', 'stalk-color-below-ring_c', 'veil-color_o', 'gill-spacing_w', 'gill-attachment_f', 'gill-size_n', 'gill-spacing_c', 'cap-color_w', 'stalk-surface-above-ring_k', 'stalk-color-below-ring_y', 'population_c', 'veil-color_y', 'stalk-color-above-ring_y', 'ring-number_o', 'cap-surface_g', 'spore-print-color_w', 'spore-print-color_h', 'odor_c', 'odor_p', 'odor_y', 'odor_s', 'odor_f', 'spore-print-color_r', 'stalk-surface-below-ring_y']
-------------------------------
# T3.2、树模型之RF基于RF模型特征重要性的筛选降维并测试评估
FS_embeded_byImportance_Eval-------------------------------
10 odor_n 0.126408
odor_f 0.068441
gill-size_b 0.065297
gill-size_n 0.057966
stalk-surface-above-ring_k 0.044860
spore-print-color_h 0.044733
gill-color_b 0.039469
stalk-surface-below-ring_k 0.038445
ring-type_p 0.034700
bruises_f 0.026444
dtype: float64
10 ['odor_n', 'odor_f', 'gill-size_b', 'gill-size_n', 'stalk-surface-above-ring_k', 'spore-print-color_h', 'gill-color_b', 'stalk-surface-below-ring_k', 'ring-type_p', 'bruises_f']
RandomForestClassifier auc_s: 0.9933
RandomForestClassifier time_cost: 1.09375
RandomForestClassifier auc_s: 0.9933
[[1248 26][ 31 1133]]precision recall f1-score support0 0.98 0.98 0.98 12741 0.98 0.97 0.98 1164accuracy 0.98 2438macro avg 0.98 0.98 0.98 2438
weighted avg 0.98 0.98 0.98 2438
# T3.3、利用通用性内置优化器SF(基于ETC)自动筛选降维并基于RF模型测试评估
FS_embeded_bySFMonETC_Eval-------------------------------
train_X (5686, 117)
after selected_train_fit_X (5686, 29)Feature Importance
27 odor_n 0.140039
35 gill-size_b 0.075933
24 odor_f 0.065969
57 stalk-surface-above-ring_k 0.054334
36 gill-size_n 0.048152
.. ... ...
43 gill-color_o 0.000010
103 spore-print-color_y 0.000000
83 veil-color_n 0.000000
82 veil-type_p 0.000000
95 spore-print-color_b 0.000000[117 rows x 2 columns]
after selected_train_X (5686, 28)
28 ['bruises_f', 'bruises_t', 'odor_c', 'odor_f', 'odor_l', 'odor_n', 'odor_p', 'gill-spacing_c', 'gill-spacing_w', 'gill-size_b', 'gill-size_n', 'gill-color_b', 'stalk-shape_e', 'stalk-shape_t', 'stalk-root_b', 'stalk-root_c', 'stalk-root_e', 'stalk-surface-above-ring_k', 'stalk-surface-above-ring_s', 'stalk-surface-below-ring_f', 'stalk-surface-below-ring_k', 'stalk-surface-below-ring_s', 'ring-type_p', 'spore-print-color_h', 'spore-print-color_n', 'spore-print-color_w', 'population_v', 'habitat_g']
RandomForestClassifier auc_s: 1.0
RandomForestClassifier time_cost: 1.1875
10
odor_n 0.193514
odor_f 0.110004
gill-size_b 0.078928
gill-size_n 0.070207
stalk-surface-above-ring_k 0.067094
gill-color_b 0.050591
spore-print-color_h 0.047754
stalk-surface-below-ring_k 0.046781
ring-type_p 0.035519
bruises_f 0.025825
dtype: float64
28 [ 5 3 9 10 17 11 23 20 22 0 1 8 14 25 7 26 18 15 13 12 16 21 6 24 27 19 24]
RandomForestClassifier auc_s: 1.0
[[1274 0][ 0 1164]]precision recall f1-score support0 1.00 1.00 1.00 12741 1.00 1.00 1.00 1164accuracy 1.00 2438macro avg 1.00 1.00 1.00 2438
weighted avg 1.00 1.00 1.00 2438
ML之FE之FS:特征工程/数据预处理—特征选择之利用过滤式filter、包装式wrapper、嵌入式Embedded方法(RF/SF)进行特征选择(mushroom蘑菇数据集二分类预测)最全案例应用相关推荐
- ML之FE:特征工程/数据预处理中的数据异常值的概述、检测方法、处理方法技巧总结之详细攻略
ML之FE:特征工程/数据预处理中的数据异常值的概述.检测方法.处理方法技巧总结之详细攻略 目录 异常值 异常值的概述(简介/原因/影响) 异常值的检测方法
- ML之FE:数据处理—特征工程之高维组合特征的处理案例(矩阵分解)——基于LoR算法的广告点击预估问题
ML之FE:数据处理-特征工程之高维组合特征的处理案例(矩阵分解)--基于LoR算法的广告点击预估问题 目录 特征工程之高维组合特征的处理思路 1.原始数据:语⾔言和类型两种离散特征 2.为了提高拟合 ...
- ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略
ML之FE:数据处理-特征工程之稀疏特征的简介.如何处理.案例应用之详细攻略 目录 稀疏特征的简介 稀疏特征的如何处理 稀疏特征的案例应用 稀疏特征的简介 信号稀疏表示是过去近20年来信号处理界一个非 ...
- ML之FE:数据处理—特征工程之数据集划分成训练集、验证集、测试集三部分简介、代码实现、案例应用之详细攻略
ML之FE:数据处理-特征工程之数据集划分成训练集.验证集.测试集三部分简介.代码实现.案例应用之详细攻略 目录 数据集划分成训练.验证.测试三种数据的简介 1.训练集.验证集的作用 2.验证数据集 ...
- ML之FE:数据处理—特征工程之特征三化(标准化【四大数据类型(数值型/类别型/字符串型/时间型)】、归一化、向量化)简介、代码实现、案例应用之详细攻略
ML之FE:数据处理-特征工程之特征三化(标准化[四大数据类型(数值型/类别型/字符串型/时间型)].归一化.向量化)简介.代码实现.案例应用之详细攻略 目录 真正意义的标准化与归一化 1.标准化/Z ...
- ML之FE:数据处理—特征工程之特征选择常用方法之基于搜索策略的三种分类、基于评价准则划分的三种分类(Filter/Wrapper/Embedded)及其代码实现
ML之FE:数据处理-特征工程之特征选择常用方法之基于搜索策略的三种分类.基于评价准则划分的三种分类(Filter/Wrapper/Embedded)及其代码实现 目录 Wrapper包裹式/封装式- ...
- ML之FE:数据处理—特征工程的简介、使用方法、案例应用之详细攻略
ML之FE:数据处理-特征工程的简介.使用方法.案例应用之详细攻略 目录 特征工程的引入 特征工程的简介 特征工程的思路 特征工程的关键步骤
- ML之LoRBaggingRF:依次利用LoR、Bagging、RF算法对泰坦尼克号数据集 (Kaggle经典案例)获救人员进行二分类预测(最全)
ML之LoR&Bagging&RF:依次利用LoR.Bagging.RF算法对泰坦尼克号数据集 (Kaggle经典案例)获救人员进行二分类预测 目录 输出结果 设计思路 核心代码 输出 ...
- ML之LoRBaggingRF:依次利用LoR、Bagging、RF算法对titanic(泰坦尼克号)数据集 (Kaggle经典案例)获救人员进行二分类预测(最全)
ML之LoR&Bagging&RF:依次利用LoR.Bagging.RF算法对titanic(泰坦尼克号)数据集 (Kaggle经典案例)获救人员进行二分类预测 目录 输出结果 设计思 ...
最新文章
- 白话Elasticsearch68-ES生产集群部署重要的操作系统设置
- bat批处理延迟运行脚本
- ps命令---Linux学习笔记
- 2021-04-05
- 使用 C# 捕获进程输出
- 套口机跳针修理带图_套口机维修注意事项
- GIL、进/线程池、同/异步、阻/非阻塞
- Java JDBC Druid
- CSS轮廓 边距 填充 分组和嵌套
- python 脚本编码_Python-我如何编码我的Python脚本
- sharepoint 使用命令行注册dll文件到gac的方法
- 5. jQuery 效果 - 隐藏和显示
- (76) Clojure: Why would someone learn Clojure? - Quora
- idea远程调试debug
- Python基础之文件和数据格式化
- Seaweedfs安装配置使用及mount挂载
- 4和2大于号小于号箭头那边_大于号小于号顺口溜
- 【路径规划】基于粒子群算法机器人避障路径规划matlab代码
- mysql主从同步延迟优化大全
- 简单计算机英语口语对话视频,优秀简短的英语口语对话