本文实例讲述了Python实现的随机森林算法。分享给大家供大家参考,具体如下:

随机森林是数据挖掘中非常常用的分类预测算法,以分类或回归的决策树为基分类器。算法的一些基本要点:

*对大小为m的数据集进行样本量同样为m的有放回抽样;

*对K个特征进行随机抽样,形成特征的子集,样本量的确定方法可以有平方根、自然对数等;

*每棵树完全生成,不进行剪枝;

*每个样本的预测结果由每棵树的预测投票生成(回归的时候,即各棵树的叶节点的平均)

著名的python机器学习包scikit learn的文档对此算法有比较详尽的介绍: http://scikit-learn.org/stable/modules/ensemble.html#random-forests

出于个人研究和测试的目的,基于经典的Kaggle 101泰坦尼克号乘客的数据集,建立模型并进行评估。比赛页面及相关数据集的下载:https://www.kaggle.com/c/titanic

泰坦尼克号的沉没,是历史上非常著名的海难。突然感到,自己面对的不再是冷冰冰的数据,而是用数据挖掘的方法,去研究具体的历史问题,也是饶有兴趣。言归正传,模型的主要的目标,是希望根据每个乘客的一系列特征,如性别、年龄、舱位、上船地点等,对其是否能生还进行预测,是非常典型的二分类预测问题。数据集的字段名及实例如下:PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked

103Braund, Mr. Owen Harrismale2210A/5 211717.25S

211Cumings, Mrs. John Bradley (Florence Briggs Thayer)female3810PC 1759971.2833C85C

313Heikkinen, Miss. Lainafemale2600STON/O2. 31012827.925S

411Futrelle, Mrs. Jacques Heath (Lily May Peel)female351011380353.1C123S

503Allen, Mr. William Henrymale35003734508.05S

值得说明的是,SibSp是指sister brother spouse,即某个乘客随行的兄弟姐妹、丈夫、妻子的人数,Parch指parents,children

下面给出整个数据处理及建模过程,基于ubuntu+python 3.4( anaconda科学计算环境已经集成一系列常用包,pandas numpy sklearn等,这里强烈推荐)

懒得切换输入法,写的时候主要的注释都是英文,中文的注释是后来补充的:-)

随机森林算法 python_Python实现的随机森林算法与简单总结相关推荐

  1. 蚂蚁算法python_Python编程实现蚁群算法详解

    简介 蚁群算法(ant colony optimization, ACO),又称蚂蚁算法,是一种用来在图中寻找优化路径的机率型算法.它由Marco Dorigo于1992年在他的博士论文中提出,其灵感 ...

  2. 快速阶乘算法python_python实现N阶乘的算法

    图片发自简书App 最近有一位师弟问我,当使用递归函数实现阶乘算法时,随着计算深度的增加会造成Stack溢出. 那我们写一下这个例子: def factorial(n): if n<0: ret ...

  3. 人工蜂群算法python_python如何实现人工蜂群算法 python实现人工蜂群算法代码示例...

    python如何实现人工蜂群算法?本篇文章小编给大家分享一下python实现人工蜂群算法代码示例,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看. ABSIndividual. ...

  4. 中文分词算法python_python实现中文分词FMM算法实例

    本文实例讲述了python实现中文分词FMM算法.分享给大家供大家参考.具体分析如下: FMM算法的最简单思想是使用贪心算法向前找n个,如果这n个组成的词在词典中出现,就ok,如果没有出现,那么找n- ...

  5. 汉诺塔算法python_python实现汉诺塔算法

    题目: 汉诺塔给出最优解,如果对汉诺塔的定义有不了解,请翻看数据结构教材. 除了最基本的之外,还有一题,给定一个数组,arr=[2,3,1,2,3],其含义是这是一个有5个圆盘的汉诺塔,每一个数字代表 ...

  6. 12_信息熵,信息熵公式,信息增益,决策树、常见决策树使用的算法、决策树的流程、决策树API、决策树案例、随机森林、随机森林的构建过程、随机森林API、随机森林的优缺点、随机森林案例

    1 信息熵 以下来自:https://www.zhihu.com/question/22178202/answer/161732605 1.2 信息熵的公式 先抛出信息熵公式如下: 1.2 信息熵 信 ...

  7. sklearn分类器算法:决策树与随机森林及案例分析

    分类算法之决策树 决策树是一种基本的分类方法,当然也可以用于回归.我们一般只讨论用于分类的决策树.决策树模型呈树形结构.在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的 ...

  8. 机器学习算法(6)——随机森林

    随机森林(Random Forests) 随机森林是一种重要的基于Bagging的集成学习方法,可以用来做分类.回归等问题.要学随机森林,先简单介绍一下集成学习方法和决策树算法. Bagging和Bo ...

  9. gbdt 算法比随机森林容易_机器学习军火库 | 浪漫算法 随机森林

    一.基本原理 顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的.在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行 ...

最新文章

  1. OpenResty搭建高性能服务端
  2. WPF Effect 造成的字体模糊
  3. 用localStorage实现登录时记住密码的功能
  4. RTC 技术知识体系
  5. struts2中文件上传
  6. mysql rpm 安装多实例_MySQL多实例安装
  7. 学习廖雪峰的git教程6--版本控制
  8. idea2020.1使用Lombok注解,点击运行项目提示找不到get,set方法?
  9. 遇到一个gcc编译器版本导致的运行结果有差异的问题
  10. srsLTE源码学习:协议数据单元PDU:pdu.h
  11. 使用PHP连接POSTGRES数据库
  12. 【Selenium2】【项目实战】
  13. BZOJ 4008: [HNOI2015]亚瑟王
  14. Excel VBA 多条件筛选及汇总统计
  15. 人脸自收集数据集辅助制作工具——多人在线协同标注系统
  16. 12306之梆梆加固libsecexe.so的脱壳及修复
  17. html img路径 404,webpack css背景图片无法现实,图片路径404
  18. 智安网络丨网络架构,是数据中心的“神经脉络”
  19. C++11智能指针(unique_ptr、shared_ptr、weak_ptr)boost::scoped_ptr
  20. 2020 零基础 Vue综合应用 教开发音乐播放器—悦听(激发编程乐趣)【整理+源码】

热门文章

  1. 匿名内部类与Lambda表达式
  2. 赞扬别人团建评论_赞扬精心设计:基于属性的测试如何帮助我成为更好的开发人员...
  3. mqtt java_MQTT和Java入门
  4. 1.0jpa 2.0_JPA 2.1如何成为新的EJB 2.0
  5. adf4351使用_使用ADF BC管理保存点
  6. 卡夫卡队列_卡夫卡编年史队列基准
  7. REST / HTTP方法:POST与PUT与PATCH
  8. javaone_JavaOne 2014 –有关提交的一些初步分析
  9. Spring依赖注入–字段vs设置器vs构造函数注入
  10. 使用Java的Selenium:Google搜索