深入浅出python机器学习_6.3.1_随机森林实例——要不要和相亲对象进一步发展
# 6.3.1 数据集的准备import pandas as pddata=pd.read_csv('adult.csv',header=None,index_col=False,names=['年龄','单位性质','权重','学历','受教育时长','婚姻状况','职业','家庭状况','种族','性别','资产所得','资产损失','周工作时长','原籍','收入'])
data_lite=data[['年龄','单位性质','学历','性别','周工作时长','职业','收入']]display(data_lite.head())
年龄 | 单位性质 | 学历 | 性别 | 周工作时长 | 职业 | 收入 | |
---|---|---|---|---|---|---|---|
0 | 39 | State-gov | Bachelors | Male | 40 | Adm-clerical | <=50K |
1 | 50 | Self-emp-not-inc | Bachelors | Male | 13 | Exec-managerial | <=50K |
2 | 38 | Private | HS-grad | Male | 40 | Handlers-cleaners | <=50K |
3 | 53 | Private | 11th | Male | 40 | Handlers-cleaners | <=50K |
4 | 28 | Private | Bachelors | Female | 40 | Prof-specialty | <=50K |
# 6.3.2 用get_dummies处理数据data_dummies=pd.get_dummies(data_lite)print('样本原始特征:\n',list(data_lite.columns),'\n')print('虚拟变量特征:\n',list(data_dummies.columns),'\n')print('data_dummies.shape:\n',data_dummies.shape,'\n')print('data_dummies的类型:\n',type(data_dummies))
样本原始特征:['年龄', '单位性质', '学历', '性别', '周工作时长', '职业', '收入'] 虚拟变量特征:['年龄', '周工作时长', '单位性质_ ?', '单位性质_ Federal-gov', '单位性质_ Local-gov', '单位性质_ Never-worked', '单位性质_ Private', '单位性质_ Self-emp-inc', '单位性质_ Self-emp-not-inc', '单位性质_ State-gov', '单位性质_ Without-pay', '学历_ 10th', '学历_ 11th', '学历_ 12th', '学历_ 1st-4th', '学历_ 5th-6th', '学历_ 7th-8th', '学历_ 9th', '学历_ Assoc-acdm', '学历_ Assoc-voc', '学历_ Bachelors', '学历_ Doctorate', '学历_ HS-grad', '学历_ Masters', '学历_ Preschool', '学历_ Prof-school', '学历_ Some-college', '性别_ Female', '性别_ Male', '职业_ ?', '职业_ Adm-clerical', '职业_ Armed-Forces', '职业_ Craft-repair', '职业_ Exec-managerial', '职业_ Farming-fishing', '职业_ Handlers-cleaners', '职业_ Machine-op-inspct', '职业_ Other-service', '职业_ Priv-house-serv', '职业_ Prof-specialty', '职业_ Protective-serv', '职业_ Sales', '职业_ Tech-support', '职业_ Transport-moving', '收入_ <=50K', '收入_ >50K'] data_dummies.shape:(32561, 46) data_dummies的类型:<class 'pandas.core.frame.DataFrame'>
# 显示数据集中的前五行#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)data_dummies.head()
年龄 | 周工作时长 | 单位性质_ ? | 单位性质_ Federal-gov | 单位性质_ Local-gov | 单位性质_ Never-worked | 单位性质_ Private | 单位性质_ Self-emp-inc | 单位性质_ Self-emp-not-inc | 单位性质_ State-gov | 单位性质_ Without-pay | 学历_ 10th | 学历_ 11th | 学历_ 12th | 学历_ 1st-4th | 学历_ 5th-6th | 学历_ 7th-8th | 学历_ 9th | 学历_ Assoc-acdm | 学历_ Assoc-voc | 学历_ Bachelors | 学历_ Doctorate | 学历_ HS-grad | 学历_ Masters | 学历_ Preschool | 学历_ Prof-school | 学历_ Some-college | 性别_ Female | 性别_ Male | 职业_ ? | 职业_ Adm-clerical | 职业_ Armed-Forces | 职业_ Craft-repair | 职业_ Exec-managerial | 职业_ Farming-fishing | 职业_ Handlers-cleaners | 职业_ Machine-op-inspct | 职业_ Other-service | 职业_ Priv-house-serv | 职业_ Prof-specialty | 职业_ Protective-serv | 职业_ Sales | 职业_ Tech-support | 职业_ Transport-moving | 收入_ <=50K | 收入_ >50K | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 39 | 40 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 |
1 | 50 | 13 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 |
2 | 38 | 40 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 |
3 | 53 | 40 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 |
4 | 28 | 40 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | 0 |
features=data_dummies.loc[:,'年龄':'职业_ Transport-moving']print('features的类型:\n',type(features),'\n')X=features.valuesprint('X的类型:\n',type(X),'\n')print('打印X的前五行:\n',X[:5,:])y=data_dummies['收入_ >50K'].valuesprint('特征形态:{} 标签形态{}'.format(X.shape,y.shape))# 避免显示不全:
# import numpy as np
# np.set_printoptions(threshold=np.inf)
features的类型:<class 'pandas.core.frame.DataFrame'> X的类型:<class 'numpy.ndarray'> 打印X的前五行:[[39 40 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 00 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0][50 13 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 00 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0][38 40 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 00 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0][53 40 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 00 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0][28 40 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 00 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0]]
特征形态:(32561, 44) 标签形态(32561,)
features.columnstype(features.columns)
pandas.core.indexes.base.Index
# 用决策树建模并作出预测
from sklearn.model_selection import train_test_splitX_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0)from sklearn import treego_dating_tree=tree.DecisionTreeClassifier(max_depth=5)go_dating_tree.fit(X_train,y_train)print('模型的分:{:.2f}'.format(go_dating_tree.score(X_test,y_test)))
模型的分:0.80
深入浅出python机器学习_6.3.1_随机森林实例——要不要和相亲对象进一步发展相关推荐
- 深入浅出python机器学习_4.3.1_岭回归的原理 4.3.2_岭回归的参数调节
# 重启显示图加这句代码就好了 %matplotlib inlinefrom sklearn.linear_model import LinearRegressionfrom sklearn.mode ...
- 深入浅出python机器学习_3.3.1_对数据集进行分析
from sklearn.datasets import load_winewine_dataset=load_wine()print('\n\n\n')print('代码运行结果')print('= ...
- Python电影观众数量回归分析 随机森林 可视化 实验报告
实验代码:Python电影观众数量回归分析随机森林可视化-数据挖掘文档类资源-CSDN文库 前言 随着经济的发展和人民日益增长的美好生活需要的显著提升,看电影成为了人民群众在闲暇时光娱乐的重要途径.面 ...
- 机器学习中决策树的随机森林_决策树和随机森林在机器学习中的使用
机器学习中决策树的随机森林 机器学习 (Machine Learning) Machine learning is an application of artificial intelligence ...
- 回归素材(part10)--深入浅出python机器学习
学习笔记,仅供参考,有错必纠 文章目录 深入浅出python机器学习 线性回归 基本原理 使用 L 2 L_2 L<
- 机器学习基础算法之随机森林
英文原文<The Random Forest Algorithm> 专知 编译<机器学习基础算法之随机森林> [导读]在当今深度学习如此火热的背景下,其他基础的机器学习算法显得 ...
- Python计算树模型(随机森林、xgboost等)的特征重要度及其波动程度:基于熵减的特征重要度计算及可视化、基于特征排列的特征重要性(feature permutation)计算及可视化
Python计算树模型(随机森林.xgboost等)的特征重要度及其波动程度:基于熵减的特征重要度计算及可视化.基于特征排列的特征重要性(feature permutation)计算及可视化 目录
- 随机森林实例:利用基于CART算法的随机森林(Random Forest)树分类方法对于红酒质量进行预测
随机森林实例:利用基于CART算法的随机森林(Random Forest)树分类方法对于红酒质量进行预测 1.引言 2.理论基础 2.1 什么是决策树 2.2 特征选择的算法 2.2.1 ID3:基于 ...
- 3.1、随机森林之随机森林实例
随机森林 junjun 2016年2月8日 随机森林实例 Markdown脚本及数据集:http://pan.baidu.com/s/1bnY6ar9 实例一.用随机森林对鸢尾花数据进行分类 #1.加 ...
最新文章
- 卡尔曼滤波对gps轨迹数据清洗_卡尔曼滤波:从入门到精通
- 151. Leetcode 剑指 Offer 14- I. 剪绳子 (贪心算法-基础题目)
- 6-5-1:STL之stack和queue——stack和queue的快速入门、常用接口以及适配器的概念
- 操作系统中涉及的各种调度算法
- 5.3 FIR低通滤波器的设计
- 项目实战:十种方法实现图像数据集降维
- 【流量池】裂变营销:10种人脉裂变技能,6个裂变核心,8个吸粉人性本能怎样玩粉丝裂变?
- 微信支付商户号如何开通0.2%提现费率/手续费?
- Linux的DNS域名解析服务
- 魔兽世界插件开发:Beginning Lua with World of Warcraft Add-ons 中文翻译及学习 (1.1)
- spring tx:advice事务配置
- 【网络运维与安全岗位】月薪2.5w,您还不知道的前景!
- 最新IOS xcode12真机调试步骤
- ISP(图像信号处理)学习笔记-DPC坏点校正
- 数据库设计--数据流图(DFD)
- 实训|第三天Linux登录界面的修改以及Richard Stallman、自由软件运动
- 倒计时抢(数据分析)
- 历经五个月,终于搞完了TQ2440裸机实验!!
- 【python教程入门学习】线性回归算法详解
- 自定义控件 - 收藏集 - 掘金