# 6.3.1 数据集的准备import pandas as pddata=pd.read_csv('adult.csv',header=None,index_col=False,names=['年龄','单位性质','权重','学历','受教育时长','婚姻状况','职业','家庭状况','种族','性别','资产所得','资产损失','周工作时长','原籍','收入'])
data_lite=data[['年龄','单位性质','学历','性别','周工作时长','职业','收入']]display(data_lite.head())
年龄 单位性质 学历 性别 周工作时长 职业 收入
0 39 State-gov Bachelors Male 40 Adm-clerical <=50K
1 50 Self-emp-not-inc Bachelors Male 13 Exec-managerial <=50K
2 38 Private HS-grad Male 40 Handlers-cleaners <=50K
3 53 Private 11th Male 40 Handlers-cleaners <=50K
4 28 Private Bachelors Female 40 Prof-specialty <=50K
# 6.3.2 用get_dummies处理数据data_dummies=pd.get_dummies(data_lite)print('样本原始特征:\n',list(data_lite.columns),'\n')print('虚拟变量特征:\n',list(data_dummies.columns),'\n')print('data_dummies.shape:\n',data_dummies.shape,'\n')print('data_dummies的类型:\n',type(data_dummies))
样本原始特征:['年龄', '单位性质', '学历', '性别', '周工作时长', '职业', '收入'] 虚拟变量特征:['年龄', '周工作时长', '单位性质_ ?', '单位性质_ Federal-gov', '单位性质_ Local-gov', '单位性质_ Never-worked', '单位性质_ Private', '单位性质_ Self-emp-inc', '单位性质_ Self-emp-not-inc', '单位性质_ State-gov', '单位性质_ Without-pay', '学历_ 10th', '学历_ 11th', '学历_ 12th', '学历_ 1st-4th', '学历_ 5th-6th', '学历_ 7th-8th', '学历_ 9th', '学历_ Assoc-acdm', '学历_ Assoc-voc', '学历_ Bachelors', '学历_ Doctorate', '学历_ HS-grad', '学历_ Masters', '学历_ Preschool', '学历_ Prof-school', '学历_ Some-college', '性别_ Female', '性别_ Male', '职业_ ?', '职业_ Adm-clerical', '职业_ Armed-Forces', '职业_ Craft-repair', '职业_ Exec-managerial', '职业_ Farming-fishing', '职业_ Handlers-cleaners', '职业_ Machine-op-inspct', '职业_ Other-service', '职业_ Priv-house-serv', '职业_ Prof-specialty', '职业_ Protective-serv', '职业_ Sales', '职业_ Tech-support', '职业_ Transport-moving', '收入_ <=50K', '收入_ >50K'] data_dummies.shape:(32561, 46) data_dummies的类型:<class 'pandas.core.frame.DataFrame'>
# 显示数据集中的前五行#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)data_dummies.head()
年龄 周工作时长 单位性质_ ? 单位性质_ Federal-gov 单位性质_ Local-gov 单位性质_ Never-worked 单位性质_ Private 单位性质_ Self-emp-inc 单位性质_ Self-emp-not-inc 单位性质_ State-gov 单位性质_ Without-pay 学历_ 10th 学历_ 11th 学历_ 12th 学历_ 1st-4th 学历_ 5th-6th 学历_ 7th-8th 学历_ 9th 学历_ Assoc-acdm 学历_ Assoc-voc 学历_ Bachelors 学历_ Doctorate 学历_ HS-grad 学历_ Masters 学历_ Preschool 学历_ Prof-school 学历_ Some-college 性别_ Female 性别_ Male 职业_ ? 职业_ Adm-clerical 职业_ Armed-Forces 职业_ Craft-repair 职业_ Exec-managerial 职业_ Farming-fishing 职业_ Handlers-cleaners 职业_ Machine-op-inspct 职业_ Other-service 职业_ Priv-house-serv 职业_ Prof-specialty 职业_ Protective-serv 职业_ Sales 职业_ Tech-support 职业_ Transport-moving 收入_ <=50K 收入_ >50K
0 39 40 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
1 50 13 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0
2 38 40 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0
3 53 40 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0
4 28 40 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0
features=data_dummies.loc[:,'年龄':'职业_ Transport-moving']print('features的类型:\n',type(features),'\n')X=features.valuesprint('X的类型:\n',type(X),'\n')print('打印X的前五行:\n',X[:5,:])y=data_dummies['收入_ >50K'].valuesprint('特征形态:{} 标签形态{}'.format(X.shape,y.shape))# 避免显示不全:
# import numpy as np
# np.set_printoptions(threshold=np.inf)
features的类型:<class 'pandas.core.frame.DataFrame'> X的类型:<class 'numpy.ndarray'> 打印X的前五行:[[39 40  0  0  0  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0  1  0  0  00  0  0  0  1  0  1  0  0  0  0  0  0  0  0  0  0  0  0  0][50 13  0  0  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0  0  1  0  0  00  0  0  0  1  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0][38 40  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  1  00  0  0  0  1  0  0  0  0  0  0  1  0  0  0  0  0  0  0  0][53 40  0  0  0  0  1  0  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0  00  0  0  0  1  0  0  0  0  0  0  1  0  0  0  0  0  0  0  0][28 40  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0  0  0  0  1  0  0  00  0  0  1  0  0  0  0  0  0  0  0  0  0  0  1  0  0  0  0]]
特征形态:(32561, 44) 标签形态(32561,)
features.columnstype(features.columns)
pandas.core.indexes.base.Index
# 用决策树建模并作出预测
from sklearn.model_selection import train_test_splitX_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0)from sklearn import treego_dating_tree=tree.DecisionTreeClassifier(max_depth=5)go_dating_tree.fit(X_train,y_train)print('模型的分:{:.2f}'.format(go_dating_tree.score(X_test,y_test)))
模型的分:0.80

深入浅出python机器学习_6.3.1_随机森林实例——要不要和相亲对象进一步发展相关推荐

  1. 深入浅出python机器学习_4.3.1_岭回归的原理 4.3.2_岭回归的参数调节

    # 重启显示图加这句代码就好了 %matplotlib inlinefrom sklearn.linear_model import LinearRegressionfrom sklearn.mode ...

  2. 深入浅出python机器学习_3.3.1_对数据集进行分析

    from sklearn.datasets import load_winewine_dataset=load_wine()print('\n\n\n')print('代码运行结果')print('= ...

  3. Python电影观众数量回归分析 随机森林 可视化 实验报告

    实验代码:Python电影观众数量回归分析随机森林可视化-数据挖掘文档类资源-CSDN文库 前言 随着经济的发展和人民日益增长的美好生活需要的显著提升,看电影成为了人民群众在闲暇时光娱乐的重要途径.面 ...

  4. 机器学习中决策树的随机森林_决策树和随机森林在机器学习中的使用

    机器学习中决策树的随机森林 机器学习 (Machine Learning) Machine learning is an application of artificial intelligence ...

  5. 回归素材(part10)--深入浅出python机器学习

    学习笔记,仅供参考,有错必纠 文章目录 深入浅出python机器学习 线性回归 基本原理 使用 L 2 L_2 L<

  6. 机器学习基础算法之随机森林

    英文原文<The Random Forest Algorithm> 专知 编译<机器学习基础算法之随机森林> [导读]在当今深度学习如此火热的背景下,其他基础的机器学习算法显得 ...

  7. Python计算树模型(随机森林、xgboost等)的特征重要度及其波动程度:基于熵减的特征重要度计算及可视化、基于特征排列的特征重要性(feature permutation)计算及可视化

    Python计算树模型(随机森林.xgboost等)的特征重要度及其波动程度:基于熵减的特征重要度计算及可视化.基于特征排列的特征重要性(feature permutation)计算及可视化 目录

  8. 随机森林实例:利用基于CART算法的随机森林(Random Forest)树分类方法对于红酒质量进行预测

    随机森林实例:利用基于CART算法的随机森林(Random Forest)树分类方法对于红酒质量进行预测 1.引言 2.理论基础 2.1 什么是决策树 2.2 特征选择的算法 2.2.1 ID3:基于 ...

  9. 3.1、随机森林之随机森林实例

    随机森林 junjun 2016年2月8日 随机森林实例 Markdown脚本及数据集:http://pan.baidu.com/s/1bnY6ar9 实例一.用随机森林对鸢尾花数据进行分类 #1.加 ...

最新文章

  1. 卡尔曼滤波对gps轨迹数据清洗_卡尔曼滤波:从入门到精通
  2. 151. Leetcode 剑指 Offer 14- I. 剪绳子 (贪心算法-基础题目)
  3. 6-5-1:STL之stack和queue——stack和queue的快速入门、常用接口以及适配器的概念
  4. 操作系统中涉及的各种调度算法
  5. 5.3 FIR低通滤波器的设计
  6. 项目实战:十种方法实现图像数据集降维
  7. 【流量池】裂变营销:10种人脉裂变技能,6个裂变核心,8个吸粉人性本能怎样玩粉丝裂变?
  8. 微信支付商户号如何开通0.2%提现费率/手续费?
  9. Linux的DNS域名解析服务
  10. 魔兽世界插件开发:Beginning Lua with World of Warcraft Add-ons 中文翻译及学习 (1.1)
  11. spring tx:advice事务配置
  12. 【网络运维与安全岗位】月薪2.5w,您还不知道的前景!
  13. 最新IOS xcode12真机调试步骤
  14. ISP(图像信号处理)学习笔记-DPC坏点校正
  15. 数据库设计--数据流图(DFD)
  16. 实训|第三天Linux登录界面的修改以及Richard Stallman、自由软件运动
  17. 倒计时抢(数据分析)
  18. 历经五个月,终于搞完了TQ2440裸机实验!!
  19. 【python教程入门学习】线性回归算法详解
  20. 自定义控件 - 收藏集 - 掘金

热门文章

  1. ALV标准范例Demo汇总
  2. 如何用模型分析中国经济?
  3. 感恩八年 — 致CSDN (感谢有你)
  4. vl02n 批次拆分
  5. 项目经理的十二条规则
  6. SAP系统配置常用命令大全
  7. 房价集体上扬?最新房价数据分析看房价走势
  8. 火出圈的1688,能扣响C2M的扳机吗?
  9. 闲鱼有流量,毒具特色,“全面”的转转如何突围?
  10. 软件管家公众号_软件安装管家:大学生最值得关注的公众号