基于鸢尾花数据和手写数字，决策树，随机森林，voting，bagging法的比较

四种方法的具体的原理可以见博文
和西瓜书
先上代码根据结果分析

鸢尾花数据

# evaluate bagging algorithm for classification
from numpy import mean
from numpy import std
from sklearn.datasets import make_classification
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
# 我们使用多个KNN模型作为基模型演示投票法，其中每个模型采用不同的邻居值K参数：
# get a voting ensemble of models
def base_modellist():# define the base modelsmodels = list()models.append(('DT1', DecisionTreeClassifier(max_depth=1)))models.append(('DT2',  DecisionTreeClassifier(max_depth=2)))models.append(('DT3',  DecisionTreeClassifier(max_depth=3)))# define the voting ensemblereturn models
def get_models():models = dict()models['DT1'] = DecisionTreeClassifier(max_depth=1)models['DT2'] = DecisionTreeClassifier(max_depth=2)models['DT3'] =  DecisionTreeClassifier(max_depth=3)models['DT100'] =  DecisionTreeClassifier(max_depth=100)models['bagging1'] = BaggingClassifier(base_estimator=DecisionTreeClassifier(max_depth=1),n_estimators=100,max_samples=0.3)models['bagging3'] = BaggingClassifier(base_estimator=DecisionTreeClassifier(max_depth=3),n_estimators=100,max_samples=0.3)models['hard_voting'] = VotingClassifier(estimators=base_modellist(), voting='hard')models['RF1'] = RandomForestClassifier(n_estimators=100, criterion='entropy',max_samples=0.3)return models
# 评估模型
def evaluate_model(model, X, y):cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1, error_score='raise')return scores
# define dataset
from sklearn import datasets
from sklearn.model_selection import train_test_split
#读取数据，划分训练集和测试集
iris=datasets.load_iris()
x=iris.data
y=iris.target
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.7, random_state=1)
# define the model
models = get_models()
# evaluate the models and store results
results, names = list(), list()
for name, model in models.items():scores = evaluate_model(model,x_train, y_train)results.append(scores)names.append(name)print('交叉验证：>%s %.3f (%.3f)' % (name, np.mean(scores), np.std(scores)))l=model.fit(x_train,y_train)s=l.score(x_test,y_test)print("测试数据分数：%.3f"%(s))
# plot model performance for comparison
pyplot.boxplot(results, labels=names, showmeans=True)
pyplot.show()

结果：

交叉验证：>DT1 0.695 (0.032)
测试数据分数：0.600
交叉验证：>DT2 0.949 (0.072)
测试数据分数：0.956
交叉验证：>DT3 0.968 (0.045)
测试数据分数：0.956
交叉验证：>DT100 0.950 (0.053)
测试数据分数：0.956
交叉验证：>bagging1 0.950 (0.059)
测试数据分数：0.956
交叉验证：>bagging3 0.950 (0.057)
测试数据分数：0.956
交叉验证：>hard_voting 0.962 (0.058)
测试数据分数：0.956
交叉验证：>RF1 0.943 (0.063)
测试数据分数：0.956

分析：

可以看到深度为3时训练效果最好
深度为100时训练效果逐渐下降，很有可能是过拟合的问题
bagging1所用到基础模型是训练效果最差的模型，但是结果反而有很高的准确率
bagging3用训练效果最好的模型训练，反而训练效果下降了
我觉得可能是数据的复杂性不够，并不是很容易过拟合，可以看见用最大深度为100的模型其效果也没有明显下降，bagging的优势显示不出来
反而是大多数基础模型比较好的情况下vote结果会更可靠。
随机森林的效果在特征比较少的情况下也没有优越性可言。

手写字母数据

# define dataset
from sklearn import datasets
from sklearn.model_selection import train_test_split
#读取数据，划分训练集和测试集
digits = datasets.load_digits()
x=digits.data
y=digits.target
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size=0.7, random_state=1)
# 我们使用多个KNN模型作为基模型演示投票法，其中每个模型采用不同的邻居值K参数：
# get a voting ensemble of models
def base_modellist():# define the base modelsmodels = list()models.append(('DT1', DecisionTreeClassifier(max_depth=1)))models.append(('DT2',  DecisionTreeClassifier(max_depth=2)))models.append(('DT3',  DecisionTreeClassifier(max_depth=3)))# define the voting ensemblereturn models
def base_modellist1():# define the base modelsmodels = list()models.append(('DT5', DecisionTreeClassifier(max_depth=5)))models.append(('DT10',  DecisionTreeClassifier(max_depth=10)))models.append(('DT100',  DecisionTreeClassifier(max_depth=100)))# define the voting ensemblereturn models
def get_models():models = dict()models['DT'] = DecisionTreeClassifier(max_depth=1)models['DT5'] = DecisionTreeClassifier(max_depth=5)models['DT10'] =  DecisionTreeClassifier(max_depth=10)models['DT100'] =  DecisionTreeClassifier(max_depth=100)models['DT1000'] =  DecisionTreeClassifier(max_depth=1000)models['b1'] = BaggingClassifier(base_estimator=DecisionTreeClassifier(max_depth=3),n_estimators=100,max_samples=0.3)models['b100'] = BaggingClassifier(base_estimator=DecisionTreeClassifier(max_depth=100),n_estimators=100,max_samples=0.3)models['HV'] = VotingClassifier(estimators=base_modellist(), voting='hard')models['HV2'] = VotingClassifier(estimators=base_modellist1(), voting='hard')models['RF1'] = RandomForestClassifier(n_estimators=100,max_depth=3,criterion='entropy',max_samples=0.3)models['RF2'] = RandomForestClassifier(n_estimators=100,max_depth=100,criterion='entropy',max_samples=0.3)return models
# 评估模型
def evaluate_model(model, X, y):cv = RepeatedStratifiedKFold(n_splits=10, n_repeats=3, random_state=1)scores = cross_val_score(model, X, y, scoring='accuracy', cv=cv, n_jobs=-1, error_score='raise')return scores
# define the model
models = get_models()
# evaluate the models and store results
results, names = list(), list()
for name, model in models.items():scores = evaluate_model(model,x_train, y_train)results.append(scores)names.append(name)print('交叉验证：>%s %.3f (%.3f)' % (name, np.mean(scores), np.std(scores)))l=model.fit(x_train,y_train)s=l.score(x_test,y_test)print("测试数据分数：%.3f"%(s))
# plot model performance for comparison
pyplot.boxplot(results, labels=names, showmeans=True)
pyplot.show()

结果

交叉验证：>DT 0.200 (0.003)
测试数据分数：0.193
交叉验证：>DT5 0.657 (0.046)
测试数据分数：0.691
交叉验证：>DT10 0.826 (0.030)
测试数据分数：0.863
交叉验证：>DT100 0.833 (0.031)
测试数据分数：0.848
交叉验证：>DT1000 0.836 (0.029)
测试数据分数：0.856
交叉验证：>b1 0.810 (0.035)
测试数据分数：0.828
交叉验证：>b100 0.941 (0.019)
测试数据分数：0.944
交叉验证：>HV 0.325 (0.019)
测试数据分数：0.335
交叉验证：>HV2 0.831 (0.033)
测试数据分数：0.854
交叉验证：>RF1 0.886 (0.025)
测试数据分数：0.894
交叉验证：>RF2 0.962 (0.015)
测试数据分数：0.967

结果分析：

bagging在基础模型不好的时候，或者有一个很明显无法提升的平台的时候，泛化能力有很大的提升，优越性有所体现
但是vote反而能力有限
所以，如果模型训练结果比较好的几种模型集合，vote对于提升准确率会很有帮助,虽然这种一般只能得到很少的提升或者，基本没有提升
使用决策树的方法下，随机森林的结果优于bagging，个人认为可能是随机森林在bagging的基础上还增加了特征的提取，这一点对于多维特征的数据很实用