机器学习【提升方法】

  • 一、Adaboost的起源
    • 1.强可学习与弱可学习
  • 二、怎样实现弱学习转为强学习
    • 1.怎样获得不同的弱分类器?
      • Bagging
      • Bagging的弊端
    • 2.怎样组合弱分类器?
  • 三、Adaboost的提出
  • 四、Adaboost的基本概念
  • 五、Adaboost算法
  • 六、示例
  • 七、Boosting illustration

一、Adaboost的起源

1.强可学习与弱可学习

1984年,Kearns 和 Valiant 提出的强可学习(strongly learnable)和弱可学习(weakly learnable)
• 在概率近似正确(probably approximately correct, PAC)学习的框架中,一个概念(类),如果存在一个多项式的学习算法能够学习它,并且正确率很高,称这个概念是强可学习的;
• 一个概念(类),如果存在一个多项式的学习算法能够学习它,学习的正确率仅比随机猜测略好,则称这个概念是弱可学习的。
• 1989年, Schapire 证明:
• 在PAC学习的框架下,一个概念是强可学习的充分必要条件是这个概念是弱可学习

二、怎样实现弱学习转为强学习

例如:学习算法A在a情况下失效,学习算法B在b情况下失效,那么在a情况下可以用B算法,在b情况下可以用A算法解决。这说明通过某种合适的方式把各种算法组合起来,可以提高准确率。
为实现弱学习互补,面临两个问题:
(1)怎样获得不同的弱分类器?
(2)怎样组合弱分类器?

1.怎样获得不同的弱分类器?

◆使用不同的弱学习算法得到不同的基本学习器
◆使用相同的弱学习算法,但用不同的参数
----◆K-Means不同的K,神经网络不同的隐含层…
◆相同输入对象的不同表示凸显事物不同的特征
◆使用不同的训练集
◆装袋(Bagging)
◆提升(Boosting)

Bagging

  • 也称为自举汇聚法(Bootstrap AGGregatIGN)

    • 从原始数据集选择S次后得到S个新数据集
    • 新数据集和原数据集的大小相等
    • 每个数据集都是通过在原始数据集中有放回地随机选择样本而得到的。
    • S个数据集建好之后,将某个学习算法分别作用于每个数据集就得到S个分类器。
    • 选择分类器投票结果中最多的类别作为最后的分类结果。
    • 改进的Bagging算法,如随机森林等。
      原数据集:{(x 1 , y 1 ), (x 2 , y 2 ), (x 3 , y 3 ), (x 4 , y 4 )} u 0 = (1, 1, 1, 1)
      采样1: {(x 2 , y 2 ), (x 2 , y 2 ), (x 3 , y 3 ), (x 4 , y 4 )} u 1 = (0, 2, 1, 1)
      采样2: {(x 1 , y 1 ), (x 1 , y 1 ), (x 1 , y 1 ), (x 4 , y 4 )} u 2 = (3, 0, 0, 1)

Bagging的弊端

• Bagging的可能弊端?
学习器是根据分布大致相同的数据学习的,它们学到的规则可能都是一样的!
• 能否控制权重u,让各个子模型学到不同的规则?
Boosting的基本思想:一个一个地训练子模型,在下一次训练的时候,当前分类错误的样本的权重增大,分类正确的样本的权重减小。那么下一次训练的时候就可以更加关注当前分类错误的样本。

2.怎样组合弱分类器?

◆多专家组合
一种并行结构,所有的弱分类器都给出各自的预测结果,通过“组合器”把这些预测结果转换为最终结果。如投票(voting)及其变种、混合专家模型
◆多级组合
一种串行结构,其中下一个分类器只在前一个分类器预测不够准(不够自信)的实例上进行训练或检测。如级联算法(cascading)

三、Adaboost的提出

• 1990 年 , Schapire 最 先 构 造 出 一 种 多 项 式 级 的 算 法 , 即 最 初 的Boosting算法;
• 1993年,Drunker和Schapire第一次将神经网络作为弱学习器,应用Boosting算法解决OCR问题;
• 1995年,Freund和Schapire提出了Adaboost (Adaptive Boosting)算法,效率和原来Boosting算法一样,但是不需要任何关于弱学习器性能的先验知识,可以非常容易地应用到实际问题中。

四、Adaboost的基本概念


  • 两个问题如何解决:
    • 每一轮如何改变训练数据的权值或概率分布?
    • AdaBoost:提高那些被前一轮弱分类器错误分类样本的权值,降低那些被正确分类样本的权值
    • 如何将弱分类器组合成一个强分类器?
    • AdaBoost:加权多数表决,加大分类误差率小的弱分类器的权值,使其在表决中起较大的作用,减小分类误差率大的弱分类器的权值,使其在表决中起较小的作用。

五、Adaboost算法






Adaboost算法说明

六、示例



七、Boosting illustration






机器学习之【提升方法】相关推荐

  1. 机器学习之提升方法Adaboost算法

    文章目录 1.背景 2.基本原理 3.Adaboost算法 4.周志华老师Boosting25周年 5.Adaboost算法优缺点 6.Q&A 1.背景 集成学习(ensemble learn ...

  2. 机器学习算法总结--提升方法

    参考自: <统计学习方法> 浅谈机器学习基础(上) Ensemble learning:Bagging,Random Forest,Boosting 简介 提升方法(boosting)是一 ...

  3. 【火炉炼AI】机器学习012-用随机森林构建汽车评估模型及模型的优化提升方法

    [火炉炼AI]机器学习012-用随机森林构建汽车评估模型及模型的优化提升方法 [本文所使用的Python库和版本号]: Python 3.5, Numpy 1.14, scikit-learn 0.1 ...

  4. 机器学习教程 之 梯度提升方法:GBDT处理分类问题

    Gradient boosting是一种广泛被用于回归.分类和排序任务的集成方法,于2001年被Friedman提出 该类算法通过以***上一轮基学习器的误差的负梯度***为训练目标训练本轮的基学习器 ...

  5. 英文书《用unreal来学习c++》_用机器学习来提升你的用户增长:第四步,客户流失预测

    作者:Barış KaramanFollow 编译:ronghuaiyang 正文共:8484 字 13 图 预计阅读时间:25 分钟 导读 我们通过客户分群和终生价值的预测得到了我们的最好的客户,对 ...

  6. [机器学习]梯度提升决策树--GBDT

    概述 GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由 ...

  7. 【实战】用机器学习来提升你的用户增长:(三、预测客户的终生价值)

    作者:Barış KaramanFollow      编译:ronghuaiyang 正文共:8484 字 13 图 预计阅读时间:25 分钟 导读 前一篇文章我们对客户进行了分群,但是我们还希望对 ...

  8. 复现经典:《统计学习方法》第 8 章 提升方法

    本文是李航老师的<统计学习方法>[1]一书的代码复现. 作者:黄海广[2] 备注:代码都可以在github[3]中下载. 我将陆续将代码发布在公众号"机器学习初学者", ...

  9. 如何将知识引入机器学习模型提升泛化能力?

    摘要:近年来,基于数据驱动的机器学习模型开始提供可替代的方法,并在许多任务中优于纯物理学驱动模型. 本文分享自华为云社区<如何将知识引入机器学习模型提升泛化能力?>,作者:PG13 . 基 ...

最新文章

  1. 打家劫舍(不偷相邻)
  2. 深度学习再登Science:万物皆可做神经网络处理器,你甚至可以用锅碗瓢盆
  3. Windows Phone 模拟器(Emulator) 加载程序一闪而过就自动退出的解决办法
  4. MIT 研究员开发不会泄露数据的安全平台
  5. 【Eclipse 字符集】Eclipse在哪里设置字符集?三个位置,分别控制不同的范围
  6. java犯的小错误_[Java教程]十个JavaScript中易犯的小错误,你中了几枪?
  7. .h 与 .hpp 文件
  8. 对于response.setContentType(MIME)的解释
  9. 斐波那契数列的三种解法
  10. debian or ubuntu下 anjuta配置
  11. ThinkPHP5.1根据时间范围查询这个期限内生日的人
  12. 微信开发之小程序分享设置图片标题
  13. A53系统移植、内核、文件系统
  14. 安装 kafka 配置 sasl 认证
  15. vue input输入框联想输入
  16. 荣耀首批老机型今日下午 4 点开启鸿蒙 HarmonyOS 2 内测
  17. 数据结构PTA 基础实验7-2.1 魔法优惠券
  18. [转]如何解决Windows图片预览窗口无法显示图片缩略图
  19. erLang中的标点符号
  20. 墨画子卿第三章第9节:是一个人

热门文章

  1. 受”误解,阿里校招java面试
  2. “玲珑杯”ACM比赛 Round #23 C -- 你居然不吃巧克力(贪心+优先队列)
  3. 网页版人脸登录,Web端人脸登录,人脸识别,基于Springboot+vue2.X版本+mysql
  4. 十万个为什么 —— 冷知识
  5. 58. 通俗易懂的 SAP ABAP 会话管理(Session Management)概念讲解,包含具体的实例
  6. Plugin execution not covered by lifecycle configuration: 错误解决方案
  7. panel添加panel
  8. 动量风险因子 matlab,【指标量化】动量指标——CMO钱德动量摆动指标
  9. 那些学校计算机专硕学费低,这5个专业学费很低,适合“家庭条件不好”的学生,但就业率很高...
  10. comsol移动网格_移动网格技术在计算流体动力学数值仿真中的应用