文章目录

  • 前言
  • 一、为什么要使用RF
    • 1.优点:
    • 2.缺点:
  • 二、使用步骤
    • 1.引入库
    • 2.读入数据
    • 3.缺失值数据处理
    • 4.哑变量数据的处理
    • 5.特征变量
    • 6.建模
    • 7.验证集结果输出对比
    • 8.决策树
    • 9.模型特征重要性
  • 总结

前言

建立多个决策树并将他们融合起来得到一个更加准确和稳定的模型,是bagging 思想和随机选择特征的结合。随机森林构造了多个决策树,当需要对某个样本进行预测时,统计森林中的每棵树对该样本的预测结果,然后通过投票法从这些预测结果中选出最后的结果。
随机主要体现在以下两个方面:

1. 随机取特征
2. 随机取样本,让森林中的每棵树既有相似性又有差异性


一、为什么要使用RF

1.优点:

  1. 准确率高运行起来高效(树之间可以并行训练)

  2. 不用降维也可以处理高维特征

  3. 给出了度量特征重要性的方法

  4. 建树过程中内部使用无偏估计

  5. 有很好的处理缺失值的算法

  6. 对于类别不平衡数据能够平衡误差

  7. 能够度量样本之间的相似性,并基于这种相似性对于样本进行聚类和筛选异常值

  8. 提出了一种衡量特征交互性的经验方法(数据中存在冗余特征时能很好的处理)

  9. 可以被扩展到无监督学习

  10. 易于检测模型准确性(如ROC曲线)

以上优点基于总结和个人看法

2.缺点:

  1. 黑盒,不可解释性强,多个随机导致了非常好的效果
  2. 在某些噪声较大的分类和回归问题上会过拟合
  3. 模型会非常大,越准确意味着越多的数
  4. 所生成的决策树量较多,分析较为麻烦

二、使用步骤

1.引入库

代码如下(示例):

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
import seaborn as sns
from six import StringIO
from IPython.display import Image
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.tree import export_graphviz
import pydotplus
import os

2.读入数据

代码如下(示例):

data_train = pd.read_excel("data_train.xlsx")
# data_train.describe().to_excel('data_train_describe.xlsx')
# 数据描述性分析
print(data_train.describe())
# 数据完整性、数据类型查看
print(data_train.info())

运用统计学方法对数据进行整理和描述性分析


3.缺失值数据处理

# 数据缺失值个数
total = data_train.isnull().sum().sort_values(ascending=False)
# 缺失值数据比例
percent = (data_train.isnull().sum() / data_train.isnull().count()).sort_values(ascending=False)
print(total)
print(percent)

上一幅代码是对缺失值数据的统计,下一幅代码是对缺失值数据的填充。

# 缺失值填充
data_train['x1'] = data_train['x1'].fillna(0)
print(data_train.isnull().sum().max())

4.哑变量数据的处理

# 哑变量处理
data_train.loc[data_train['x10'] == '类别1', 'x10'] = 1
data_train.loc[data_train['x10'] == '类别2', 'x10'] = 2
a = pd.get_dummies(data_train['x10'], prefix="x10")
frames = [data_train, a]
data_train = pd.concat(frames, axis=1)
data_train = data_train.drop(columns=['x10'])
data_train.to_excel('data_train_yucl.xlsx')

5.特征变量

# 特征变量x1和标签变量y关系的散点图
var = 'x1'
data = pd.concat([data_train['y'], data_train[var]], axis=1)
data.plot.scatter(x=var, y='y')
plt.show()# 特征变量x5和标签变量y关系的散点图
var0 = 'x5'
data0 = pd.concat([data_train['y'], data_train[var0]], axis=1)
data0.plot.scatter(x=var0, y='y')
plt.show()

# 特征数据和标签数据拆分
X = data_train.drop(columns=['y'])
y = data_train['y']

特征数据的分析是为了更好的找出变量的重要程度。feature selection 的本质就是对一个给定特征子集的优良性通过一个特定的评价标准(evaluation criterion)进行衡量.通过特征选择,原始特征集合中的冗余(redundant)特征和不相关(irrelevant)特征被除去。而有用特征得以保留。这样模型相同,数据相同,而特征变量的选取不同,将会对结果带来巨大的影响,这也说明了在不同环境下,选取不同的特征变量进行分析的重要性。



6.建模

#  建模
forest = RandomForestRegressor(n_estimators=100,random_state=1,n_jobs=-1)
forest.fit(X_train, Y_train)score = forest.score(X_validation, Y_validation)
print('随机森林模型得分: ', score)
y_validation_pred = forest.predict(X_validation)

通过调用RandomForestRegressor,我们可以进行建模,当然这也是最基础的建模。

7.验证集结果输出对比

# 验证集结果输出与比对
plt.figure()
plt.plot(np.arange(1000), Y_validation[:1000], "go-", label="True value")
plt.plot(np.arange(1000), y_validation_pred[:1000], "ro-", label="Predict value")
plt.title("True value And Predict value")
plt.legend()
plt.show()

8.决策树

# 生成决策树
# dot_data = StringIO()
with open('./wine.dot','w',encoding='utf-8') as f:f=export_graphviz(pipe.named_steps['regressor'].estimators_[0], out_file=f)
# graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
# graph.write_png('tree.png')
# Image(graph.create_png())

9.模型特征重要性

col = list(X_train.columns.values)
importances = forest.feature_importances_
x_columns = ['x1', 'x2', 'x3', 'x4', 'x5', 'x6', 'x7', 'x8', 'x9', 'x10_类别1', 'x10_类别2']
# print("重要性:", importances)
# 返回数组从大到小的索引值

总结

通过随机森林模型的预测,可以发现所预测数据和真实的数据很接近,并且得分较高。

【Python】随机森林预测相关推荐

  1. Python随机森林预测含水率

    Python随机森林预测含水率 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn. ...

  2. Python应用实战案例-深入浅出Python随机森林预测实战(附源码)

    前言 组合算法也叫集成学习,在金融行业或非图像识别领域,效果有时甚至比深度学习还要好.能够理解基本原理并将代码用于实际的业务案例是本文的目标,本文将详细介绍如何利用Python实现集成学习中随机森林这 ...

  3. 原理+代码|深入浅出Python随机森林预测实战

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 寒梅最堪恨,长作去年花. 前言 组 ...

  4. python与算法社区_【Python算法】分类与预测——Python随机森林

    [Python算法]分类与预测--Python随机森林 1.随机森林定义 随机森林是一种多功能的机器学习算法,能够执行回归和分类的任务.同时,它也是一种数据降维手段,在处理缺失值.异常值以及其他数据探 ...

  5. python在Scikit-learn中用决策树和随机森林预测NBA获胜者

    在本文中,我们将以Scikit-learn的决策树和随机森林预测NBA获胜者.美国国家篮球协会(NBA)是北美主要的男子职业篮球联赛,被广泛认为是首屈一指的男子职业篮球联赛在世界上.它有30个团队(美 ...

  6. Python使用随机森林预测泰坦尼克号生存

    tags: 随机森林 kaggle 数据挖掘 categories: 数据挖掘 mathjax: true 文章目录 前言: 1 数据预处理 1.1 读入数据 1.2 训练集与数据集 1.2.1 查看 ...

  7. python在Scikit-learn中用决策树和随机森林预测NBA获胜者 1

    最近我们被要求撰写关于预测NBA的研究报告,包括一些图形和统计输出.我们将以Scikit-learn的决策树和随机森林预测NBA获胜者.美国国家篮球协会(NBA)是北美主要的男子职业篮球联赛,被广泛认 ...

  8. RandomForest:随机森林预测生物标记biomarker——回归

    关于随机森林的简介和应用理论,请阅读之前分享的文章: 一文读懂随机森林在微生态中的应用 关于随机森林进行分类的入门实战,请阅读 之前分享的 - <RandomForest:随机森林预测生物标记b ...

  9. Python 随机森林分类

    Python 随机森林分类 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理. 2 决策树分类简介 相关概念见下: 决策树的最大问题是 ...

  10. python 随机森林分类 DecisionTreeClassifier 随机搜索优化参数 GridSearchCV

    @python 随机森林分类模型 随机优化参数 学习笔记 随机森林 1.随机森林模型 随机森林算法是基于决策树算法的Begging优化版本,通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策 ...

最新文章

  1. Linux的内存分页管理
  2. 图的实现(邻接链表C#)
  3. matlab中fdyn,Matlab的用法总结
  4. 实现锁死的有滚动条的div的表格(datagird)
  5. git 创建webpack项目_从0到1开发一个小程序cli脚手架(一)创建页面/组件模版篇...
  6. android.mk local_cppflags,android.mk中LOCAL_CFLAGS 介绍
  7. android画面传输到电视,如何将手机内容投屏到电视上?
  8. java线程异步传值_Java 多线程传值的四种方法
  9. python3 ftplib_python3从零学习-5.10.9、ftplib—FTP 协议客户端
  10. Div 高度、滚动条距 Div 顶部偏移量、Div 中文档总高度
  11. mysql备份怎么锁库_MySQL锁(一)全局锁:如何作全库的逻辑备份?
  12. PyCharm中文设置方法(超级简单,一看就会,无需汉化包~)
  13. visio2016下载以及永久激活
  14. Ubuntu16.04设置AP热点方法
  15. 5G十大细分应用场景研究报告
  16. 干货 | 收藏贴!一文看懂静态资源服务沉浮及其在携程的演进
  17. HTML语言标记详解
  18. 博客园主题美化(仅兼容 Markdown)
  19. python电影评价分析_Python浅谈分析某电影数据
  20. CMMI五个成熟度级别和对应22个过程域(PA)

热门文章

  1. 2020年3月25日阿里笔试题
  2. face_recognition、opencv中haar人脸特征:视频/图片 进行 人脸检测/人脸识别
  3. VSCode中Git解决冲突的步骤
  4. FreeSql 新的八大骚功能,.NETCore 你必须晓得的 ORM
  5. java rest 请求_REST 风格的请求方式
  6. linux中查看cpu和内存的命令,Linux系统如何查看cpu和内存信息
  7. z370支持pcie信号拆分吗_主板支持PCIE4.0都有什么先决条件?从芯片和插槽开始分析...
  8. OpenCV-python验证码识别之猿人学第八题
  9. python使用xlsx和pandas处理Excel表格的操作步骤
  10. 萌宠短视频定位类型分享,做好准备再做内容,才能事半功倍