数据链接: https://pan.baidu.com/s/1366cxbt-ofzrO8EQofVTjw 提取码: q98b

我们现在拥有这样一个表格,里面包含一个成年人的[‘年龄’,‘单位性质’,‘权重’,‘学历’,‘受教育时长’,‘婚姻状况’,‘职业’,‘家庭情况’,‘种族’,‘性别’,‘资产所得’,‘资产损失’,‘周工作时长’,‘原籍’,‘收入’]信息,我们希望通过建模,来建立一个根据个人基本的特征,预测月收入的模型。

1.首先读取这个表格

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn import tree,datasetsdata = pd.read_csv(r'd:\pycharm\data\adult.csv',header = None,index_col = False,names = ['年龄','单位性质','权重','学历','受教育时长','婚姻状况','职业','家庭情况','种族','性别','资产所得','资产损失','周工作时长','原籍','收入'])
data_select.head()

①读取csv文件需要用到pd.read_csv()函数,因此先导入模块
②pandas.read_csv(“data.csv”)默认情况下,会把数据内容的第一行默认为字段名标题


使用header = None,则不会出现上述情况

③index_col = None / 0 / False

index_col = None / False—重新设置一列成为index值

index_col = 0—第一列为index值

④names[]为column的名称
⑤data_select.head()

2.表格数据预处理

data_dummies = pd.get_dummies(data_select)
data_dummies.head()

pd.get_dummies()
通过data_select.head()可看出,表格中的数据部分是str,此时通过函数将str转换为0,1形式的数字

3.划分训练集与测试集

feature = data_dummies.loc[:,'年龄':'职业_ Transport-moving']
x = feature.values #将特征的值赋给x
y = data_dummies['收入_ >50K'].values

将收入_ > 50k之前的列作为特征,将收入_ > 50k作为目标值

4.模型实例化,将数据放入模型内

X_train,X_test,y_train,y_test = train_test_split(x,y,random_state = 0)
data_tree = tree.DecisionTreeClassifier(max_depth = 5) #模型实例化
#将数据放入模型中
data_tree.fit(X_train,y_train)
data_tree.score(X_test,y_test)#测试模型得分

5.将要测试的数据放入模型中

Mr_Z = [[37, 40,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0]]
data_MrZ = data_tree.predict(Mr_Z)
if data_MrZ == 1:print('张先生月入50k')
else:print('月入低于50k')

sklearn—随机森林—预测一个人的月收入相关推荐

  1. Python使用随机森林预测泰坦尼克号生存

    tags: 随机森林 kaggle 数据挖掘 categories: 数据挖掘 mathjax: true 文章目录 前言: 1 数据预处理 1.1 读入数据 1.2 训练集与数据集 1.2.1 查看 ...

  2. Python随机森林预测含水率

    Python随机森林预测含水率 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn. ...

  3. #第23篇分享:一个北京二手房价格数据挖掘实例(python语言:sklearn随机森林)

    #本次是做一个北京二手房的数据挖掘案例,主要是汇总一下学过的知识,并且通过实例加深一下印象,话不多说,开干: 目的:预测二手房的价格: 工具:语言python:爬虫模块scrapy,数据清洗:xpat ...

  4. 在jupytor中运行随机森林预测泰坦尼克旅客生存情况

    在jupytor中运行随机森林预测泰坦尼克旅客生存情况 数据集链接链接: link. 百度网盘:链接: https://pan.baidu.com/s/1_pQ-3iG4dr0hrvU_5hYUtg ...

  5. RandomForest:随机森林预测生物标记biomarker——回归

    关于随机森林的简介和应用理论,请阅读之前分享的文章: 一文读懂随机森林在微生态中的应用 关于随机森林进行分类的入门实战,请阅读 之前分享的 - <RandomForest:随机森林预测生物标记b ...

  6. sklearn随机森林模型:ValueError: Unknown label type: ‘unknown‘

    sklearn随机森林模型:ValueError: Unknown label type: 'unknown' 目录 sklearn随机森林模型:ValueError: Unknown label t ...

  7. python在Scikit-learn中用决策树和随机森林预测NBA获胜者

    在本文中,我们将以Scikit-learn的决策树和随机森林预测NBA获胜者.美国国家篮球协会(NBA)是北美主要的男子职业篮球联赛,被广泛认为是首屈一指的男子职业篮球联赛在世界上.它有30个团队(美 ...

  8. 随机森林预测财务报表是否舞弊

    随机森林预测财务报表是否舞弊 爬取财务报表 设置文件保存在c盘eastmoney文件夹下 1 设置表格爬取时期 2 设置表格爬取起始页数 3 表格正式爬取 写入表头 方法1 借助csv包,最常用 数据 ...

  9. python在Scikit-learn中用决策树和随机森林预测NBA获胜者 1

    最近我们被要求撰写关于预测NBA的研究报告,包括一些图形和统计输出.我们将以Scikit-learn的决策树和随机森林预测NBA获胜者.美国国家篮球协会(NBA)是北美主要的男子职业篮球联赛,被广泛认 ...

最新文章

  1. vtuber面部捕捉工具_泰国程序员开发VTuber形象生成系统,人人都能当虚拟偶像
  2. 2021年河北高考生成绩排名查询,2021年河北高考成绩查询网站查分网址:http://www.hebeea.edu.cn/...
  3. win7 php 5.3,win7 64位 WAMP环境下(PHP5.3) redis扩展无法生效
  4. 索引组织表:万物皆索引
  5. oracle normal索引类型,Oracle中有多少种索引类型?
  6. marlab中主成分得分怎么求_羡慕神仙权重?主成分与因子分析带你揭开权重的秘密...
  7. GitHub 和 gitlab 的使用
  8. uploader.php,Uploader.php
  9. 初识计算机网络||概述
  10. 编译hostapd时,出现错误:/usr/bin/ld: cannot find -lnl
  11. android 检测软键盘,Android:检测软键盘打开
  12. 如何禁止win7自动锁屏
  13. 设置Excel单元格行宽列高
  14. tcp ip协议 服务器和客户端区别,网络与TCP/IP协议-总结
  15. sqlserver通过日志恢复删除数据(只能恢复小数据量)
  16. u盘启动 v5 华为2288h_华为2288H-V5 组RAID安装系统
  17. 培训python合肥
  18. 推荐一些常用的中外学术文献数据库网站
  19. oracle scn 作用,Oracle中scn讲解
  20. GBK与UTF-8的中文是一个字符占几个字节

热门文章

  1. Visium_Brain_deconvolution giotto解卷积
  2. 自行实现ONVIF协议网络摄像机(IPC)开发(0):专栏开篇
  3. (三) 技术选型 1.项目框架模式:MVP(得分点);注意:分包分层,避免内存泄漏; 2.图片加载:Fresco图片加载框架; 3.网络加载框架:retrofit;使用Retrofit+RxJ
  4. 四极管 整理wince挂起和唤醒(suspend/wakeup)以及实现关机功能文章
  5. Linux云主机开启IPv6服务
  6. ApowerMirror PJ教程
  7. D3D11 MD5骨骼动画模型的加载
  8. 神奇的物理学(六)量子电动力学的应用
  9. CentOS8 安装Google浏览器
  10. 解决win10,64位系统下 PL2303 USB转串口驱动问题