sklearn—随机森林—预测一个人的月收入
数据链接: https://pan.baidu.com/s/1366cxbt-ofzrO8EQofVTjw 提取码: q98b
我们现在拥有这样一个表格,里面包含一个成年人的[‘年龄’,‘单位性质’,‘权重’,‘学历’,‘受教育时长’,‘婚姻状况’,‘职业’,‘家庭情况’,‘种族’,‘性别’,‘资产所得’,‘资产损失’,‘周工作时长’,‘原籍’,‘收入’]信息,我们希望通过建模,来建立一个根据个人基本的特征,预测月收入的模型。
1.首先读取这个表格
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn import tree,datasetsdata = pd.read_csv(r'd:\pycharm\data\adult.csv',header = None,index_col = False,names = ['年龄','单位性质','权重','学历','受教育时长','婚姻状况','职业','家庭情况','种族','性别','资产所得','资产损失','周工作时长','原籍','收入'])
data_select.head()
①读取csv文件需要用到pd.read_csv()函数,因此先导入模块
②pandas.read_csv(“data.csv”)默认情况下,会把数据内容的第一行默认为字段名标题
使用header = None,则不会出现上述情况
③index_col = None / 0 / False
index_col = None / False—重新设置一列成为index值
index_col = 0—第一列为index值
④names[]为column的名称
⑤data_select.head()
2.表格数据预处理
data_dummies = pd.get_dummies(data_select)
data_dummies.head()
pd.get_dummies()
通过data_select.head()可看出,表格中的数据部分是str,此时通过函数将str转换为0,1形式的数字
3.划分训练集与测试集
feature = data_dummies.loc[:,'年龄':'职业_ Transport-moving']
x = feature.values #将特征的值赋给x
y = data_dummies['收入_ >50K'].values
将收入_ > 50k之前的列作为特征,将收入_ > 50k作为目标值
4.模型实例化,将数据放入模型内
X_train,X_test,y_train,y_test = train_test_split(x,y,random_state = 0)
data_tree = tree.DecisionTreeClassifier(max_depth = 5) #模型实例化
#将数据放入模型中
data_tree.fit(X_train,y_train)
data_tree.score(X_test,y_test)#测试模型得分
5.将要测试的数据放入模型中
Mr_Z = [[37, 40,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0]]
data_MrZ = data_tree.predict(Mr_Z)
if data_MrZ == 1:print('张先生月入50k')
else:print('月入低于50k')
sklearn—随机森林—预测一个人的月收入相关推荐
- Python使用随机森林预测泰坦尼克号生存
tags: 随机森林 kaggle 数据挖掘 categories: 数据挖掘 mathjax: true 文章目录 前言: 1 数据预处理 1.1 读入数据 1.2 训练集与数据集 1.2.1 查看 ...
- Python随机森林预测含水率
Python随机森林预测含水率 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn. ...
- #第23篇分享:一个北京二手房价格数据挖掘实例(python语言:sklearn随机森林)
#本次是做一个北京二手房的数据挖掘案例,主要是汇总一下学过的知识,并且通过实例加深一下印象,话不多说,开干: 目的:预测二手房的价格: 工具:语言python:爬虫模块scrapy,数据清洗:xpat ...
- 在jupytor中运行随机森林预测泰坦尼克旅客生存情况
在jupytor中运行随机森林预测泰坦尼克旅客生存情况 数据集链接链接: link. 百度网盘:链接: https://pan.baidu.com/s/1_pQ-3iG4dr0hrvU_5hYUtg ...
- RandomForest:随机森林预测生物标记biomarker——回归
关于随机森林的简介和应用理论,请阅读之前分享的文章: 一文读懂随机森林在微生态中的应用 关于随机森林进行分类的入门实战,请阅读 之前分享的 - <RandomForest:随机森林预测生物标记b ...
- sklearn随机森林模型:ValueError: Unknown label type: ‘unknown‘
sklearn随机森林模型:ValueError: Unknown label type: 'unknown' 目录 sklearn随机森林模型:ValueError: Unknown label t ...
- python在Scikit-learn中用决策树和随机森林预测NBA获胜者
在本文中,我们将以Scikit-learn的决策树和随机森林预测NBA获胜者.美国国家篮球协会(NBA)是北美主要的男子职业篮球联赛,被广泛认为是首屈一指的男子职业篮球联赛在世界上.它有30个团队(美 ...
- 随机森林预测财务报表是否舞弊
随机森林预测财务报表是否舞弊 爬取财务报表 设置文件保存在c盘eastmoney文件夹下 1 设置表格爬取时期 2 设置表格爬取起始页数 3 表格正式爬取 写入表头 方法1 借助csv包,最常用 数据 ...
- python在Scikit-learn中用决策树和随机森林预测NBA获胜者 1
最近我们被要求撰写关于预测NBA的研究报告,包括一些图形和统计输出.我们将以Scikit-learn的决策树和随机森林预测NBA获胜者.美国国家篮球协会(NBA)是北美主要的男子职业篮球联赛,被广泛认 ...
最新文章
- vtuber面部捕捉工具_泰国程序员开发VTuber形象生成系统,人人都能当虚拟偶像
- 2021年河北高考生成绩排名查询,2021年河北高考成绩查询网站查分网址:http://www.hebeea.edu.cn/...
- win7 php 5.3,win7 64位 WAMP环境下(PHP5.3) redis扩展无法生效
- 索引组织表:万物皆索引
- oracle normal索引类型,Oracle中有多少种索引类型?
- marlab中主成分得分怎么求_羡慕神仙权重?主成分与因子分析带你揭开权重的秘密...
- GitHub 和 gitlab 的使用
- uploader.php,Uploader.php
- 初识计算机网络||概述
- 编译hostapd时,出现错误:/usr/bin/ld: cannot find -lnl
- android 检测软键盘,Android:检测软键盘打开
- 如何禁止win7自动锁屏
- 设置Excel单元格行宽列高
- tcp ip协议 服务器和客户端区别,网络与TCP/IP协议-总结
- sqlserver通过日志恢复删除数据(只能恢复小数据量)
- u盘启动 v5 华为2288h_华为2288H-V5 组RAID安装系统
- 培训python合肥
- 推荐一些常用的中外学术文献数据库网站
- oracle scn 作用,Oracle中scn讲解
- GBK与UTF-8的中文是一个字符占几个字节
热门文章
- Visium_Brain_deconvolution giotto解卷积
- 自行实现ONVIF协议网络摄像机(IPC)开发(0):专栏开篇
- (三) 技术选型 1.项目框架模式:MVP(得分点);注意:分包分层,避免内存泄漏; 2.图片加载:Fresco图片加载框架; 3.网络加载框架:retrofit;使用Retrofit+RxJ
- 四极管 整理wince挂起和唤醒(suspend/wakeup)以及实现关机功能文章
- Linux云主机开启IPv6服务
- ApowerMirror PJ教程
- D3D11 MD5骨骼动画模型的加载
- 神奇的物理学(六)量子电动力学的应用
- CentOS8 安装Google浏览器
- 解决win10,64位系统下 PL2303 USB转串口驱动问题