机器学习之路:python 集成分类器 随机森林分类RandomForestClassifier 梯度提升决策树分类GradientBoostingClassifier 预测泰坦尼克号幸存者...
python3 学习使用随机森林分类器 梯度提升决策树分类 的api,并将他们和单一决策树预测结果做出对比
附上我的git,欢迎大家来参考我其他分类器的代码: https://github.com/linyi0604/MachineLearning
1 import pandas as pd 2 from sklearn.cross_validation import train_test_split 3 from sklearn.feature_extraction import DictVectorizer 4 from sklearn.tree import DecisionTreeClassifier 5 from sklearn.metrics import classification_report 6 from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier 7 8 ''' 9 集成分类器: 10 综合考量多个分类器的预测结果做出考量。 11 这种综合考量大体上分两种: 12 1 搭建多个独立的分类模型,然后通过投票的方式 比如 随机森林分类器 13 随机森林在训练数据上同时搭建多棵决策树,这些决策树在构建的时候会放弃唯一算法,随机选取特征 14 2 按照一定次序搭建多个分类模型, 15 他们之间存在依赖关系,每一个后续模型的加入都需要现有模型的综合性能贡献, 16 从多个较弱的分类器搭建出一个较为强大的分类器,比如梯度提升决策树 17 提督森林决策树在建立的时候尽可能降低成体在拟合数据上的误差。 18 19 下面将对比 单一决策树 随机森林 梯度提升决策树 的预测情况 20 21 ''' 22 23 ''' 24 1 准备数据 25 ''' 26 # 读取泰坦尼克乘客数据,已经从互联网下载到本地 27 titanic = pd.read_csv("./data/titanic/titanic.txt") 28 # 观察数据发现有缺失现象 29 # print(titanic.head()) 30 31 # 提取关键特征,sex, age, pclass都很有可能影响是否幸免 32 x = titanic[['pclass', 'age', 'sex']] 33 y = titanic['survived'] 34 # 查看当前选择的特征 35 # print(x.info()) 36 ''' 37 <class 'pandas.core.frame.DataFrame'> 38 RangeIndex: 1313 entries, 0 to 1312 39 Data columns (total 3 columns): 40 pclass 1313 non-null object 41 age 633 non-null float64 42 sex 1313 non-null object 43 dtypes: float64(1), object(2) 44 memory usage: 30.9+ KB 45 None 46 ''' 47 # age数据列 只有633个,对于空缺的 采用平均数或者中位数进行补充 希望对模型影响小 48 x['age'].fillna(x['age'].mean(), inplace=True) 49 50 ''' 51 2 数据分割 52 ''' 53 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=33) 54 # 使用特征转换器进行特征抽取 55 vec = DictVectorizer() 56 # 类别型的数据会抽离出来 数据型的会保持不变 57 x_train = vec.fit_transform(x_train.to_dict(orient="record")) 58 # print(vec.feature_names_) # ['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', 'sex=female', 'sex=male'] 59 x_test = vec.transform(x_test.to_dict(orient="record")) 60 61 ''' 62 3.1 单一决策树 训练模型 进行预测 63 ''' 64 # 初始化决策树分类器 65 dtc = DecisionTreeClassifier() 66 # 训练 67 dtc.fit(x_train, y_train) 68 # 预测 保存结果 69 dtc_y_predict = dtc.predict(x_test) 70 71 ''' 72 3.2 使用随机森林 训练模型 进行预测 73 ''' 74 # 初始化随机森林分类器 75 rfc = RandomForestClassifier() 76 # 训练 77 rfc.fit(x_train, y_train) 78 # 预测 79 rfc_y_predict = rfc.predict(x_test) 80 81 ''' 82 3.3 使用梯度提升决策树进行模型训练和预测 83 ''' 84 # 初始化分类器 85 gbc = GradientBoostingClassifier() 86 # 训练 87 gbc.fit(x_train, y_train) 88 # 预测 89 gbc_y_predict = gbc.predict(x_test) 90 91 92 ''' 93 4 模型评估 94 ''' 95 print("单一决策树准确度:", dtc.score(x_test, y_test)) 96 print("其他指标:\n", classification_report(dtc_y_predict, y_test, target_names=['died', 'survived'])) 97 98 print("随机森林准确度:", rfc.score(x_test, y_test)) 99 print("其他指标:\n", classification_report(rfc_y_predict, y_test, target_names=['died', 'survived'])) 100 101 print("梯度提升决策树准确度:", gbc.score(x_test, y_test)) 102 print("其他指标:\n", classification_report(gbc_y_predict, y_test, target_names=['died', 'survived'])) 103 104 ''' 105 单一决策树准确度: 0.7811550151975684 106 其他指标: 107 precision recall f1-score support 108 109 died 0.91 0.78 0.84 236 110 survived 0.58 0.80 0.67 93 111 112 avg / total 0.81 0.78 0.79 329 113 114 随机森林准确度: 0.78419452887538 115 其他指标: 116 precision recall f1-score support 117 118 died 0.91 0.78 0.84 237 119 survived 0.58 0.80 0.68 92 120 121 avg / total 0.82 0.78 0.79 329 122 123 梯度提升决策树准确度: 0.790273556231003 124 其他指标: 125 precision recall f1-score support 126 127 died 0.92 0.78 0.84 239 128 survived 0.58 0.82 0.68 90 129 130 avg / total 0.83 0.79 0.80 329 131 132 '''
转载于:https://www.cnblogs.com/Lin-Yi/p/8971348.html
机器学习之路:python 集成分类器 随机森林分类RandomForestClassifier 梯度提升决策树分类GradientBoostingClassifier 预测泰坦尼克号幸存者...相关推荐
- 简单易学的机器学习算法——梯度提升决策树GBDT
梯度提升决策树(Gradient Boosting Decision Tree,GBDT)算法是近年来被提及比较多的一个算法,这主要得益于其算法的性能,以及该算法在各类数据挖掘以及机器学习比赛中的卓越 ...
- 词袋模型 matlab,【火炉炼AI】机器学习051-视觉词袋模型+极端随机森林建立图像分类器...
[火炉炼AI]机器学习051-视觉词袋模型+极端随机森林建立图像分类器 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit-learn 0.19, m ...
- 机器学习实践之集成方法(随机森林和AdaBoost元算法提高分类性能)
本文根据最近学习机器学习书籍网络文章的情况,特将一些学习思路做了归纳整理,详情如下.如有不当之处,请各位大拿多多指点,在此谢过. (未添加文章标签,特此补上,2018.1.14记.) 一.概述 ...
- 集成算法-随机森林与案例实战-泰坦尼克获救预测
集成算法-随机森林 Ensemble learning 目的:让机器学习效果更好,单个不行,群殴走起 Bagging:训练多个分类器取平均 f ( x ) = 1 / M ∑ m = 1 M f m ...
- Python 中的随机森林
什么是随机森林 众所周知,树模型是高方差.低偏差的模型.因此,它们容易过度拟合训练数据.如果我们不修剪树模型或引入早期停止标准(例如每个叶节点的最小实例数),我们可以概括一下树模型的作用,这很吸引人. ...
- 预处理--python实现用随机森林评估特征的重要性
python实现用随机森林评估特征的重要性 随机森林根据森林中所有决策树计算平均不纯度的减少来测量特征的重要性,而不作任何数据是线性可分或不可分的假设. import numpy as np impo ...
- python实现-用随机森林填补缺失值、均值填充0填充的比较
sklearn中,可以使用sklearn.impute.SimpleImputer来轻松地填充均值等 import numpy as np import pandas as pd import mat ...
- 随机森林实例:利用基于CART算法的随机森林(Random Forest)树分类方法对于红酒质量进行预测
随机森林实例:利用基于CART算法的随机森林(Random Forest)树分类方法对于红酒质量进行预测 1.引言 2.理论基础 2.1 什么是决策树 2.2 特征选择的算法 2.2.1 ID3:基于 ...
- 机器学习-集成学习-梯度提升决策树(GBDT)
目录 1. GBDT算法的过程 1.1 Boosting思想 1.2 GBDT原理 需要多少颗树 2. 梯度提升和梯度下降的区别和联系是什么? 3. GBDT的优点和局限性有哪些? 3.1 优点 3. ...
最新文章
- cacti由cmd.php更换成spine后无法绘图
- linux hadoop etc目录,题目Linux平台下Hadoop的安装配置
- xss防御方法base64_XSS 防御方法总结
- 在线版本powerbi的使用!开启您的商业智能!
- 爬虫+数据分析:重庆买房吗?爬取重庆房价
- JavaScript中的匿名函数及函数的闭包
- 【SpringBoot】在普通类中获取spring容器中的bean
- CSS基础(part22)--2D转换
- 从零开始学视觉Transformer(5):如何训练ViT模型、DeiT算法解析
- C#设计模式之22-模板方法模式
- Ankhsvn 改名出错
- config userc.php,框架内置Config.php配置
- android列表项点击事件,Android 开发 tips(2):监听 Listview 列表项点击事件
- 猜51CTO的人群结构
- 将vue项目打包部署到云服务器(傻瓜式宝塔面板)
- IOS:UI设计之UISegmentedControl相关基础
- 前端获取后端16位主键id,后3位四舍五入
- AngularJS $destroy
- vue金额数字转大写的方法
- yocto sysroot说明