决策树、随机森林及代码实战

随机森林训练

视频：https://www.bilibili.com/video/av50873926/

数据及源码：

我们对训练集采用随机森林模型，并评估模型效果

%pylab inline
# 导入训练集、验证集和测试集import pandas as pdsamtrain = pd.read_csv('samtrain.csv')
samval = pd.read_csv('samval.csv')
samtest = pd.read_csv('samtest.csv')# 使用 sklearn的随机森林模型，其模块叫做 sklearn.ensemble.RandomForestClassifier# 在这里我们需要将标签列 ('activity') 转换为整数表示，
# 因为Python的RandomForest package需要这样的格式。  # 其对应关系如下：
# laying = 1, sitting = 2, standing = 3, walk = 4, walkup = 5, walkdown = 6
# 其代码在 library randomforest.py 中。import randomforests as rf
samtrain = rf.remap_col(samtrain,'activity')
samval = rf.remap_col(samval,'activity')
samtest = rf.remap_col(samtest,'activity')

Populating the interactive namespace from numpy and matplotlib

import sklearn.ensemble as sk
rfc = sk.RandomForestClassifier(n_estimators=500, oob_score=True)
train_data = samtrain[samtrain.columns[1:-2]]
train_truth = samtrain['activity']
model = rfc.fit(train_data, train_truth)

# 使用 OOB (out of band) 来对模型的精确度进行评估.
rfc.oob_score_

输出
0.98174904942965779

# 用 "feature importance" 得分来看最重要的10个特征
fi = enumerate(rfc.feature_importances_)
cols = samtrain.columns
[(value,cols[i]) for (i,value) in fi if value > 0.04]
## 这个值0.4是我们通过经验选取的，它恰好能够提供10个最好的特征。
## 改变这个值的大小可以得到不同数量的特征。
## 下面这句命令是防止你修改参数弄乱了后回不来的命令备份。
## [(value,cols[i]) for (i,value) in fi if value > 0.04]

输出
[(0.048788075395111638, 'tAccMean'),(0.044887862923922571, 'tAccStd'),(0.044231502495174914, 'tJerkMean'),(0.04892499919665521, 'tGyroJerkMagSD'),(0.058161561399143025, 'fAccMean'),(0.0448666616780896, 'fJerkSD'),(0.14045995765086935, 'angleGyroJerkGravity'),(0.16538335816293095, 'angleXGravity'),(0.047154808012715918, 'angleYGravity')]

我们对验证集和测试集使用predict()方法，并得到相应的误差。

# 因为pandas的 data frame 在第0列增加了一个假的未知列，所以我们从第1列开始。
# not using subject column, activity ie target is in last columns hence -2 i.e dropping last 2 colsval_data = samval[samval.columns[1:-2]]
val_truth = samval['activity']
val_pred = rfc.predict(val_data)test_data = samtest[samtest.columns[1:-2]]
test_truth = samtest['activity']
test_pred = rfc.predict(test_data)

输出误差

print("mean accuracy score for validation set = %f" %(rfc.score(val_data, val_truth)))
print("mean accuracy score for test set = %f" %(rfc.score(test_data, test_truth)))

mean accuracy score for validation set = 0.834911
mean accuracy score for test set = 0.900337

# 使用混淆矩阵来观察哪些活动被错误分类了。
# 详细说明请看 [5]
import sklearn.metrics as skm
test_cm = skm.confusion_matrix(test_truth,test_pred)
test_cm

array([[293,   0,   0,   0,   0,   0],[  0, 224,  40,   0,   0,   0],[  0,  29, 254,   0,   0,   0],[  0,   0,   0, 197,  26,   6],[  0,   0,  16,   1, 173,  26],[  0,   0,   0,   3,  14, 183]])

# 混淆矩阵可视化

import pylab as pl
pl.matshow(test_cm)
pl.title('Confusion matrix for test data')
pl.colorbar()
pl.show()

# 计算一下其他的对预测效果的评估指标
# Accuracy
print("Accuracy = %f" %(skm.accuracy_score(test_truth,test_pred)))

Accuracy = 0.900337

# Precision
print("Precision = %f" %(skm.precision_score(test_truth,test_pred)))
# Recall
print("Recall = %f" %(skm.recall_score(test_truth,test_pred)))
# F1 Score
print("F1 score = %f" %(skm.f1_score(test_truth,test_pred)))

Precision = 0.902996

Recall = 0.900337

F1 score = 0.900621

决策树、随机森林及代码实战相关推荐

决策树随机森林GBDTXGBoost学习笔记以及代码实现
文章目录 1. 引入 1.1 决策树 1.2 随机森林 1.3 GBDT(Gradient Boosting Decision Tree)梯度提升决策树 1.4 XGBoost(eXtreme Gra ...
spark 随机森林算法案例实战
随机森林算法由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数 ...
人工智能之随机森林算法项目实战
文章目录 (1)随机森林算法介绍随机性体现 (2)随机森林应用场景 (3) Spark随机森林训练和预测过程训练预测分类回归 (4) Spark随机森林模型参数详解 (5) Spark随机森 ...
决策树随机森林 xgboost_从决策树到随机森林理论篇从人话到鬼话：看不懂来找我麻烦...
从决策树产生的一些列的问题,过度到随机森林: 全文大概要阅读10分钟: 随机森林算法范畴监督学习分类算法,基模型是由决策树组成决策树决策树模型与学习特征选择决策树生成决策树剪枝 CART算 ...
随机森林的java算法_spark 随机森林算法案例实战
随机森林算法由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程,行方向上构建决策树时采用放回抽样(bootstraping)得到训练数 ...
【机器学习基础】(五)：通俗易懂决策树与随机森林及代码实践
与SVM一样,决策树是通用的机器学习算法.随机森林,顾名思义,将决策树分类器集成到一起就形成了更强大的机器学习算法.它们都是很基础但很强大的机器学习工具,虽然我们现在有更先进的算法工具来训练模型,但决 ...
机器学习实战之分类算法(K-近邻/朴素贝叶斯/决策树/随机森林)
机器学习分类算法 1. 机器学习算法简介 1.1 按照学习方式分类 1.2 区别 1.3 关于监督学习中的分类与回归区别 1.4 机器学习开发流程 2. 数据集介绍与划分 2.1 sklearn数据集 ...
基于scikit-learn的随机森林调参实战
写在前面在之前一篇机器学习算法总结之Bagging与随机森林中对随机森林的原理进行了介绍.还是老套路,学习完理论知识需要实践来加深印象.在scikit-learn中,RF的分类类是RandomFor ...
集成算法-随机森林与案例实战-泰坦尼克获救预测
集成算法-随机森林 Ensemble learning 目的:让机器学习效果更好,单个不行,群殴走起 Bagging:训练多个分类器取平均 f ( x ) = 1 / M ∑ m = 1 M f m ...
决策树随机森林GBDT
决策树算法这篇文章: https://zhuanlan.zhihu.com/p/26703300 对决策树算法说的非常深入浅出决策树模型核心是下面几个部分: (1) 结点和有向边组成 (2) 结 ...

决策树、随机森林及代码实战

随机森林训练

决策树、随机森林及代码实战相关推荐

最新文章

热门文章