随机森林算法 python_Python实现的随机森林算法与简单总结
本文实例讲述了Python实现的随机森林算法。分享给大家供大家参考,具体如下:
随机森林是数据挖掘中非常常用的分类预测算法,以分类或回归的决策树为基分类器。算法的一些基本要点:
*对大小为m的数据集进行样本量同样为m的有放回抽样;
*对K个特征进行随机抽样,形成特征的子集,样本量的确定方法可以有平方根、自然对数等;
*每棵树完全生成,不进行剪枝;
*每个样本的预测结果由每棵树的预测投票生成(回归的时候,即各棵树的叶节点的平均)
著名的python机器学习包scikit learn的文档对此算法有比较详尽的介绍: http://scikit-learn.org/stable/modules/ensemble.html#random-forests
出于个人研究和测试的目的,基于经典的Kaggle 101泰坦尼克号乘客的数据集,建立模型并进行评估。比赛页面及相关数据集的下载:https://www.kaggle.com/c/titanic
泰坦尼克号的沉没,是历史上非常著名的海难。突然感到,自己面对的不再是冷冰冰的数据,而是用数据挖掘的方法,去研究具体的历史问题,也是饶有兴趣。言归正传,模型的主要的目标,是希望根据每个乘客的一系列特征,如性别、年龄、舱位、上船地点等,对其是否能生还进行预测,是非常典型的二分类预测问题。数据集的字段名及实例如下:PassengerIdSurvivedPclassNameSexAgeSibSpParchTicketFareCabinEmbarked
103Braund, Mr. Owen Harrismale2210A/5 211717.25S
211Cumings, Mrs. John Bradley (Florence Briggs Thayer)female3810PC 1759971.2833C85C
313Heikkinen, Miss. Lainafemale2600STON/O2. 31012827.925S
411Futrelle, Mrs. Jacques Heath (Lily May Peel)female351011380353.1C123S
503Allen, Mr. William Henrymale35003734508.05S
值得说明的是,SibSp是指sister brother spouse,即某个乘客随行的兄弟姐妹、丈夫、妻子的人数,Parch指parents,children
下面给出整个数据处理及建模过程,基于ubuntu+python 3.4( anaconda科学计算环境已经集成一系列常用包,pandas numpy sklearn等,这里强烈推荐)
懒得切换输入法,写的时候主要的注释都是英文,中文的注释是后来补充的:-)
随机森林算法 python_Python实现的随机森林算法与简单总结相关推荐
- 蚂蚁算法python_Python编程实现蚁群算法详解
简介 蚁群算法(ant colony optimization, ACO),又称蚂蚁算法,是一种用来在图中寻找优化路径的机率型算法.它由Marco Dorigo于1992年在他的博士论文中提出,其灵感 ...
- 快速阶乘算法python_python实现N阶乘的算法
图片发自简书App 最近有一位师弟问我,当使用递归函数实现阶乘算法时,随着计算深度的增加会造成Stack溢出. 那我们写一下这个例子: def factorial(n): if n<0: ret ...
- 人工蜂群算法python_python如何实现人工蜂群算法 python实现人工蜂群算法代码示例...
python如何实现人工蜂群算法?本篇文章小编给大家分享一下python实现人工蜂群算法代码示例,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看. ABSIndividual. ...
- 中文分词算法python_python实现中文分词FMM算法实例
本文实例讲述了python实现中文分词FMM算法.分享给大家供大家参考.具体分析如下: FMM算法的最简单思想是使用贪心算法向前找n个,如果这n个组成的词在词典中出现,就ok,如果没有出现,那么找n- ...
- 汉诺塔算法python_python实现汉诺塔算法
题目: 汉诺塔给出最优解,如果对汉诺塔的定义有不了解,请翻看数据结构教材. 除了最基本的之外,还有一题,给定一个数组,arr=[2,3,1,2,3],其含义是这是一个有5个圆盘的汉诺塔,每一个数字代表 ...
- 12_信息熵,信息熵公式,信息增益,决策树、常见决策树使用的算法、决策树的流程、决策树API、决策树案例、随机森林、随机森林的构建过程、随机森林API、随机森林的优缺点、随机森林案例
1 信息熵 以下来自:https://www.zhihu.com/question/22178202/answer/161732605 1.2 信息熵的公式 先抛出信息熵公式如下: 1.2 信息熵 信 ...
- sklearn分类器算法:决策树与随机森林及案例分析
分类算法之决策树 决策树是一种基本的分类方法,当然也可以用于回归.我们一般只讨论用于分类的决策树.决策树模型呈树形结构.在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的 ...
- 机器学习算法(6)——随机森林
随机森林(Random Forests) 随机森林是一种重要的基于Bagging的集成学习方法,可以用来做分类.回归等问题.要学随机森林,先简单介绍一下集成学习方法和决策树算法. Bagging和Bo ...
- gbdt 算法比随机森林容易_机器学习军火库 | 浪漫算法 随机森林
一.基本原理 顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的.在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行 ...
最新文章
- OpenResty搭建高性能服务端
- WPF Effect 造成的字体模糊
- 用localStorage实现登录时记住密码的功能
- RTC 技术知识体系
- struts2中文件上传
- mysql rpm 安装多实例_MySQL多实例安装
- 学习廖雪峰的git教程6--版本控制
- idea2020.1使用Lombok注解,点击运行项目提示找不到get,set方法?
- 遇到一个gcc编译器版本导致的运行结果有差异的问题
- srsLTE源码学习:协议数据单元PDU:pdu.h
- 使用PHP连接POSTGRES数据库
- 【Selenium2】【项目实战】
- BZOJ 4008: [HNOI2015]亚瑟王
- Excel VBA 多条件筛选及汇总统计
- 人脸自收集数据集辅助制作工具——多人在线协同标注系统
- 12306之梆梆加固libsecexe.so的脱壳及修复
- html img路径 404,webpack css背景图片无法现实,图片路径404
- 智安网络丨网络架构,是数据中心的“神经脉络”
- C++11智能指针(unique_ptr、shared_ptr、weak_ptr)boost::scoped_ptr
- 2020 零基础 Vue综合应用 教开发音乐播放器—悦听(激发编程乐趣)【整理+源码】
热门文章
- 匿名内部类与Lambda表达式
- 赞扬别人团建评论_赞扬精心设计:基于属性的测试如何帮助我成为更好的开发人员...
- mqtt java_MQTT和Java入门
- 1.0jpa 2.0_JPA 2.1如何成为新的EJB 2.0
- adf4351使用_使用ADF BC管理保存点
- 卡夫卡队列_卡夫卡编年史队列基准
- REST / HTTP方法:POST与PUT与PATCH
- javaone_JavaOne 2014 –有关提交的一些初步分析
- Spring依赖注入–字段vs设置器vs构造函数注入
- 使用Java的Selenium:Google搜索