机器学习算法概述：随机森林逻辑回归

摘要： 机器学习算法入门介绍：随机森林与逻辑回归！

随机森林是用于分类和回归的监督式集成学习模型。为了使整体性能更好，集成学习模型聚合了多个机器学习模型。因为每个模型单独使用时性能表现的不是很好，但如果放在一个整体中则很强大。在随机森林模型下，使用大量“弱”因子的决策树，来聚合它们的输出，结果能代表“强”的集成。

权衡偏差与方差

在任何机器学习模型中，有两个误差来源:偏差和方差。为了更好地说明这两个概念，假设已创建了一个机器学习模型并已知数据的实际输出，用同一数据的不同部分对其进行训练，结果机器学习模型在数据的不同部分产生了不同的输出。为了确定偏差和方差，对这两个输出进行比较，偏差是机器学习模型中预测值与实际值之间的差异，而方差则是这些预测值的分布情况。

简而言之：

偏差是当算法作了太多简化假设之后出现的错误，这导致模型预测值与实际值有所出入。

方差是由于算法对训练数据集中小变化的敏感性而产生的误差;方差越大，意味着算法受数据变化的影响更大。

理想情况下，偏差和方差都会很小，这意味模型在相同数据集的不同数据中的预测值很接近真值。当这种情况发生时，模型可以精确地学习数据集中的潜在模式。

随机森林是一种减少方差的算法

决策树以高方差、低偏差为人所知。这主要是因为它能够对复杂的关系，甚至是过拟合数据中的噪声进行建模。简单地说:决策树训练的模型通常是精确的，但常常在同一数据集中的不同数据样本之间显示出很大程度的变化。

随机森林通过聚合单个决策树的不同输出来减少可能导致决策树错误的方差。通过多数投票算法，我们可以找到大多数单个树给出的平均输出，从而平滑了方差，这样模型就不容易产生离真值更远的结果。

随机森林思想是取一组高方差、低偏差的决策树，并将它们转换成低方差、低偏差的新模型。

为什么随机森林是随机的?

随机森林中的随机来源于算法用训练数据的不同子集训练每个单独的决策树，用数据中随机选择的属性对每个决策树的每个节点进行分割。通过引入这种随机性元素，该算法能够创建彼此不相关的模型。这导致可能的误差均匀分布在模型中，意味着误差最终会通过随机森林模型的多数投票决策策略被消除。

随机森林实际是如何工作的?

想象一下，你厌倦了一遍又一遍地听着同样的电子音乐，强烈地想找到一些可能喜欢的新音乐，所以你上网去寻找推荐，找到了能让真实的人根据你的喜好给你音乐建议的一个网站。

那么它是如何工作的呢?首先，为了避免建议的随机性，先填写一份关于自己的基本音乐喜好的问卷，为可能喜欢的音乐类型提供一个标准。然后网友利用这些信息开始根据你提供的标准(特征)来分析歌曲，此时每个人本质上都是一个决策树。

就个人而言，网上提出建议的人并不能很好地概括你的音乐喜好。比如，有人可能会认为你不喜欢80年代之前的任何歌曲，因此不会给你推荐这些歌曲。但是这假设可能不准确，并可能会导致你不会收到喜欢的音乐的建议。

为什么会发生这种错误?每一个推荐人对你的喜好的了解都是有限的，而且他们对自己个人的音乐品味也是有偏见的。为了解决这个问题，我们统计来自许多个人的建议(每个人都扮演决策树的角色)，并对他们的建议使用多数投票算法(本质上是创建一个随机森林)。

然而，还有一个问题——因为每个人都在使用来自同一份问卷的相同数据，因此得出的建议将会是类似的，而且可能具有高度的偏见和相关性。为了扩大建议的范围，每个推荐人都会得到一组调查问卷的随机答案，而不是所有的答案，这意味着他们的推荐标准更少。最后，通过多数投票消除了极端异常值，你就会得到一个准确而多样的推荐歌曲列表。

总结

随机森林的优点:

1.不需要特征归一化；

2.可并行化:单个决策树可以并行训练；

3.广泛使用的；

4.减少过拟合；

随机森林的缺点:

1.不容易解释

2.不是最先进的方法

逻辑回归是一个使用分类因变量预测结果的监督式统计模型。分类变量的值为名称或标签，例如:赢/输、健康/生病或成功/失败。该模型也可用于两类以上的因变量，这种情况称多项逻辑回归。

逻辑回归是基于历史信息构建给定数据集的分类规则，这些数据集被划分为不同的类别。模型公式为:

机器学习算法概述：随机森林逻辑回归相关推荐

机器学习算法：随机森林
在经典机器学习中,随机森林一直是一种灵丹妙药类型的模型. 该模型很棒有几个原因: 与许多其他算法相比,需要较少的数据预处理,因此易于设置充当分类或回归模型不太容易过度拟合可以轻松计算特征重要性 ...
【机器学习算法笔记系列】逻辑回归(LR)算法详解和实战
逻辑回归(LR)算法概述逻辑回归(Logistic Regression)是用于处理因变量为分类变量的回归问题,常见的是二分类或二项分布问题,也可以处理多分类问题,它实际上是属于一种分类方法. 逻辑 ...
机器学习算法（3）—— 逻辑回归算法
逻辑回归算法 1 逻辑回归介绍 2 损失及优化 3 逻辑回归的使用 4 分类评估方法 4.1 混淆矩阵 4.2 ROC曲线与AUC指标 4.3 ROC曲线绘制 5 分类中类别不平衡问题 5.1 过采样 ...
机器学习算法总结--随机森林
简介随机森林指的是利用多棵树对样本进行训练并预测的一种分类器.它是由多棵CART(Classification And Regression Tree)构成的.对于每棵树,其使用的训练集是从总的训练 ...
机器学习算法总结--线性回归和逻辑回归
1. 线性回归简述在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析.这种函数是一个或多个称为回 ...
机器学习算法（四）逻辑回归理论与python实现+经典示例（从疝气病预测病马的死亡率）
学习笔记更新什么是逻辑回归? 简要介绍逻辑回归是用来解决线性回归问题的,它将线性回归得到的结果通过逻辑函数映射到[0,1]之间,因此称逻辑回归.逻辑回归模型主要用于解决二分类问题,是一个分 ...
【机器学习算法-python实现】逻辑回归的实现(LogicalRegression)
1.背景知识在刚刚结束的天猫大数据s1比赛中,逻辑回归是大家都普遍使用且效果不错的一种算法. (1)回归先来说说什么是回归,比如说我们有两类数据,各有50十个点 ...
金融风控机器学习第三十一天---拜师课堂机器学习算法--决策树随机森林
ID3 c4.5的核心是熵 ID3 c4.5 cart 过拟合解决一般用剪枝或者随机森林随机森林代码: #!/usr/bin/python # -*- coding:utf-8 -*-imp ...
随机森林实例：利用基于CART算法的随机森林（Random Forest）树分类方法对于红酒质量进行预测
随机森林实例:利用基于CART算法的随机森林(Random Forest)树分类方法对于红酒质量进行预测 1.引言 2.理论基础 2.1 什么是决策树 2.2 特征选择的算法 2.2.1 ID3:基于 ...

机器学习算法概述：随机森林逻辑回归

机器学习算法概述：随机森林逻辑回归相关推荐

最新文章

热门文章