随机森林回归预测r语言_R语言决策树和随机森林回归分析

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。本文我们讲讲R语言的决策树和随机森林及回归分析。

【R语言进行数据挖掘】决策树和随机森林

1、使用包party建立决策树

这一节学习使用包party里面的函数ctree()为数据集iris建立一个决策树。属性Sepal.Length(萼片长度)、 Sepal.Width(萼片宽度)、Petal.Length(花瓣长度)以及Petal.Width(花瓣宽度)被用来预测鸢尾花的 Species(种类)。在这个包里面，函数ctree()建立了一个决策树，predict()预测另外一个数据集。

在建立模型之前，iris(鸢尾花)数据集被分为两个子集：训练集(70%)和测试集(30%)。使用随机种子设置固定的随机数，可以使得随机选取的数据是可重复利用的。

观察鸢尾花数据集的结构

str(iris)

设置随机数起点为1234

set.seed(1234)

使用sample函数抽取样本，将数据集中观测值分为两个子集

ind

样本的第一部分为训练集

trainData

样本的第二部分为测试集

testData

加载包party建立一个决策树，并检测预测见过。函数ctree()提供一些参数例如MinSplit, MinBusket, MaxSurrogate 和 MaxDepth用来控制决策树的训练。下面我们将会使用默认的参数设置去建立决策树，至于具体的参数设置可以通过?party查看函数文档。下面的代码中，myFormula公式中的Species(种类)是目标变量，其他变量是独立变量。

library(party)

符号'~'是连接方程或公式左右两边的符号

myFormula

建立决策树

iris_ctree

检测预测值

table(predict(iris_ctree), trainData$Species)

显示结果如下：

由上图可知，setosa(山鸢尾)40观测值全部正确预测，而versicolor(变色鸢尾)有一个观测值被误判为virginica(维吉尼亚鸢尾)，virginica(维吉尼亚鸢尾)有3个观测值被误判为versicolor(变色鸢尾)。

打印决策树

print(iris_ctree)

plot(iris_ctree)

plot(iris_ctree, type="simple")

在图1中，每一个叶子的节点的条形图都显示了观测值落入三个品种的概率。在图2中，这些概率以每个叶子结点中的y值表示。例如：结点2里面的标签是 “n=40 y=(1,0,0)”，指的是这一类中一共有40个观测值，并且所有的观测值的类别都属于第一类setosa(山鸢尾)。

接下来，需要使用测试集测试决策树。

在测试集上测试决策树

testPred

table(testPred, testData$Species)

结果如下：

从上图的结果可知，决策树对变色鸢尾和维吉尼亚鸢尾的识别仍然有误判。因此ctree()现在的版本并不能很好的处理部分属性不明确的值，在实例中既有可能被判到左子树，有时候也会被判到右子树上。

2、使用包rpart建立决策树

rpart这个包在本节中被用来在'bodyfat'这个数据集的基础上建立决策树。函数raprt()可以建立一个决策树，并且可以选择最小误差的预测。然后利用该决策树使用predict()预测另外一个数据集。

首先，加载bodyfat这个数据集，并查看它的一些属性。

data("bodyfat", package = "TH.data")

dim(bodyfat)

attributes(bodyfat)

bodyfat[1:5,]

跟第1节一样，将数据集分为训练集和测试集，并根据训练集建立决策树。

set.seed(1234)

ind

bodyfat.train

bodyfat.test

library(rpart)

编写公式myFormula

myFormula

训练决策树

bodyfat_rpart

control = rpart.control(minsplit = 10))

画决策树

plot(bodyfat_rpart)

添加文本标签

text(bodyfat_rpart, use.n=T)

结果如下图所示：

选择预测误差最小值的预测树，从而优化模型。

opt

bodyfat_prune

plot(bodyfat_rpart)

text(bodyfat_rpart, use.n=T)

优化后的决策树如下：

对比结果就会发现，优化模型后，就是将hipcirc<99.5这个分层给去掉了，也许是因为这个分层没有必要，那么大家可以思考一下选择预测误差最小的结果的决策树的分层反而没有那么细。

之后，优化后的决策树将会用来预测，预测的结果会与实际的值进行对比。下面的代码中，使用函数abline()绘制一条斜线。一个好的模型的预测值应该是约接近真实值越好，也就是说大部分的点应该落在斜线上面或者在斜线附近。

根据测试集预测

DEXfat_pred

预测值的极值

xlim

plot(DEXfat_pred ~ DEXfat, data=bodyfat.test, xlab="Observed",

ylab="Predicted", ylim=xlim, xlim=xlim)

abline(a=0, b=1)

绘制结果如下：

3、随机森林

我们使用包randomForest并利用鸢尾花数据建立一个预测模型。包里面的randomForest()函数有两点不足：第一，它不能处理缺失值，使得用户必须在使用该函数之前填补这些缺失值;第二，每个分类属性的最大数量不能超过32个，如果属性超过32个，那么在使用randomForest()之前那些属性必须被转化。

也可以通过另外一个包'cforest'建立随机森林，并且这个包里面的函数并不受属性的最大数量约束，尽管如此，高维的分类属性会使得它在建立随机森林的时候消耗大量的内存和时间。

ind

trainData

testData

library(randomForest)

Species ~ .指的是Species与其他所有属性之间的等式

table(predict(rf), trainData$Species)

结果如下：

由上图的结果可知，即使在决策树中，仍然有误差，第二类和第三类话仍然会被误判，可以通过输入print(rf)知道误判率为2.88%，也可以通过输入plot(rf)绘制每一棵树的误判率的图。

最后，在测试集上测试训练集上建立的随机森林，并使用table()和margin()函数检测预测结果。

irisPred

table(irisPred, testData$Species)

绘制每一个观测值被判断正确的概率图

plot(margin(rf, testData$Species))

显示结果如下：

【R语言进行数据挖掘】回归分析

1、线性回归

线性回归就是使用下面的预测函数预测未来观测量：

其中，x1,x2,...,xk都是预测变量(影响预测的因素)，y是需要预测的目标变量(被预测变量)。

线性回归模型的数据来源于澳大利亚的CPI数据，选取的是2008年到2011年的季度数据。

rep函数里面的第一个参数是向量的起始时间，从2008-2010，第二个参数表示向量里面的每个元素都被4个小时间段。

year

quarter

cpi

166.2, 167.0, 168.6, 169.5,

171.0, 172.1, 173.3, 174.0)

plot函数中axat=“n”表示横坐标刻度的标注是没有的

plot(cpi, xaxt="n", ylab="CPI", xlab="")

绘制横坐标轴

axis(1, labels=paste(year,quarter,sep="Q"), at=1:12, las=3)

接下来，观察CPI与其他变量例如‘year(年份)’和‘quarter(季度)’之间的相关关系。

cor(year,cpi)

cor(quarter,cpi)

输出如下：

cor(quarter,cpi)

[1] 0.3738028

cor(year,cpi)

[1] 0.9096316

cor(quarter,cpi)

[1] 0.3738028

由上图可知，CPI与年度之间的关系是正相关，并且非常紧密，相关系数接近1;而它与季度之间的相关系数大约为0.37，只是有着微弱的正相关，关系并不明显。

然后使用lm()函数建立一个线性回归模型，其中年份和季度为预测因素，CPI为预测目标。

建立模型fit

fit

输出结果如下：

Call:

lm(formula = cpi ~ year quarter)

Coefficients:

(Intercept) year quarter

-7644.488 3.888 1.167

由上面的输出结果可以建立以下模型公式计算CPI：

其中，c0、c1和c2都是模型fit的参数分别是-7644.488、3.888和1.167。因此2011年的CPI可以通过以下方式计算：

(cpi2011

fit$coefficients[[3]]*(1:4))

输出的2011年的季度CPI数据分别是174.4417、175.6083、176.7750和177.9417。

模型的具体参数可以通过以下代码查看：

查看模型的属性

attributes(fit)

$names

[1] "coefficients" "residuals" "effects" "rank" "fitted.values"

[6] "assign" "qr" "df.residual" "xlevels" "call"

[11] "terms" "model"

$class

[1] "lm"

模型的参数

fit$coefficients

观测值与拟合的线性模型之间的误差，也称为残差

residuals(fit)

1 2 3 4 5 6 7

-0.57916667 0.65416667 1.38750000 -0.27916667 -0.46666667 -0.83333333 -0.40000000

8 9 10 11 12

-0.66666667 0.44583333 0.37916667 0.41250000 -0.05416667

除了将数据代入建立的预测模型公式中，还可以通过使用predict()预测未来的值。

输入预测时间

data2011

cpi2011

设置散点图上的观测值和预测值对应点的风格(颜色和形状)

style

plot(c(cpi, cpi2011), xaxt="n", ylab="CPI", xlab="", pch=style, col=style)

标签中sep参数设置年份与季度之间的间隔

axis(1, at=1:16, las=3,

labels=c(paste(year,quarter,sep="Q"), "2011Q1", "2011Q2", "2011Q3", "2011Q4"))

预测结果如下：

上图中红色的三角形就是预测值。

2、Logistic回归

Logistic回归是通过将数据拟合到一条线上并根据简历的曲线模型预测事件发生的概率。可以通过以下等式来建立一个Logistic回归模型：

其中，x1,x2,...,xk是预测因素，y是预测目标。令

，上面的等式被转换成：

使用函数glm()并设置响应变量(被解释变量)服从二项分布(family='binomial,'link='logit')建立Logistic回归模型，更多关于Logistic回归模型的内容可以通过以下链接查阅：

· R Data Analysis Examples - Logit Regression

· 《LogisticRegression (with R)》

3、广义线性模型

广义线性模型(generalizedlinear model, GLM)是简单最小二乘回归(OLS)的扩展，响应变量(即模型的因变量)可以是正整数或分类数据，其分布为某指数分布族。其次响应变量期望值的函数(连接函数)与预测变量之间的关系为线性关系。因此在进行GLM建模时，需要指定分布类型和连接函数。这个建立模型的分布参数包括binomaial(两项分布)、gaussian(正态分布)、gamma(伽马分布)、poisson(泊松分布)等。

广义线性模型可以通过glm()函数建立，使用的数据是包‘TH.data’自带的bodyfat数据集。

data("bodyfat", package="TH.data")

myFormula

设置响应变量服从正态分布，对应的连接函数服从对数分布

bodyfat.glm

预测类型为响应变量

pred

plot(bodyfat$DEXfat, pred, xlab="Observed Values", ylab="Predicted Values")

abline(a=0, b=1)

预测结果检验如下图所示：

由上图可知，模型虽然也有离群点，但是大部分的数据都是落在直线上或者附近的，也就说明模型建立的比较好，能较好的拟合数据。

4、非线性回归

如果说线性模型是拟合拟合一条最靠近数据点的直线，那么非线性模型就是通过数据拟合一条曲线。在R中可以使用函数nls()建立一个非线性回归模型，具体的使用方法可以通过输入'?nls()'查看该函数的文档。

随机森林回归预测r语言_R语言决策树和随机森林回归分析相关推荐

随机森林回归预测r语言_R包 randomForest 进行随机森林分析
randomForest 包提供了利用随机森林算法解决分类和回归问题的功能:我们这里只关注随机森林算法在分类问题中的应用首先安装这个R包 install.packages("randomF ...
随机森林回归预测r语言_使用随机森林（R语言）做回归
引言随机森林( random forest) 是一种基于分类树( classification tree) 的算法,它可以用于分类和回归,本文在这里以广西地区1990-2014共25年的GDP数据作 ...
随机森林特征重要性计算_R语言随机森林模型中具有相关特征的变量重要性
原文链接: http://tecdat.cn/?p=13546tecdat.cn 变量重要性图是查看模型中哪些变量有趣的好工具.由于我们通常在随机森林中使用它,因此它看起来非常适合非常大的数据集.大 ...
r spgm 语言_R语言 splm包 spml()函数中文帮助文档(中英文对照)
spml(splm) spml()所属R语言包:splm Spatial Panel Model by Maximum Likelihood 空间面板模型的最大似然法(Maximum Likeliho ...
fig r函数_R语言基础绘图函数散点图~跟着Nature Communications学画图~Figure1
今天继续跟着Nature Communications学画图系列第二篇.学习R语言基础绘图函数画散点图. 对应的 Nature Communications 的论文是 Fecal pollution ...
包r语言_R语言代码共享：制作R包
作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量.机器学习.数据可视化.应用统计建模.知识图谱等,著有& ...
CSDN ARIMA R语言_R语言实现Fleiss#39; Kappa系数处理多个观察者一致性检验
Fleiss' kappa系数.该检验适用于分析重复测量3次及以上且测量结果是无序分类变量的重测一致性或观察者一致性检验.SPSS没有内置操作模块,但可以通过拓展包输出结果.Fleiss' kappa ...
dataframe第二列 r语言_R语言-数据框
1. 数据框的建立数据框是R语言中一种重要的数据结构.数据框类似于矩阵,有行和列两个维度.数据框和矩阵不同的是,数据框的每一列可以是不同的模式.例如,有些列是数字组成,有些列是字符串组成.数据框通过 ...
包r语言_R语言交互式可视化包CanvasXpress
CanvasXpress包简介 CanvasXpress核心是一个JavaScript语言编写的库,主要用于可重复研究. 在R中可以安装canvasXpress包,使用canvasXpress命令绘制 ...
包r语言_R语言入门之寻找你的R包
关于寻找目标R包,一般可以在官网利用关键词搜索即可获得相关信息,不过米老鼠在这里想给大家介绍一个特别的R包,它可以帮助你寻找你想要的理想R包. 不过,在正式讲解,我想和大家提醒一下安装R包的注意事项: ...

随机森林回归预测r语言_R语言决策树和随机森林回归分析

随机森林回归预测r语言_R语言决策树和随机森林回归分析相关推荐

最新文章

热门文章

随机森林回归预测r语言_R语言 决策树和随机森林 回归分析

随机森林回归预测r语言_R语言 决策树和随机森林 回归分析相关推荐

最新文章

热门文章

随机森林回归预测r语言_R语言决策树和随机森林回归分析

随机森林回归预测r语言_R语言决策树和随机森林回归分析相关推荐