sklearn—随机森林—预测一个人的月收入

数据链接: https://pan.baidu.com/s/1366cxbt-ofzrO8EQofVTjw 提取码: q98b

我们现在拥有这样一个表格，里面包含一个成年人的[‘年龄’,‘单位性质’,‘权重’,‘学历’,‘受教育时长’,‘婚姻状况’,‘职业’,‘家庭情况’,‘种族’,‘性别’,‘资产所得’,‘资产损失’,‘周工作时长’,‘原籍’,‘收入’]信息，我们希望通过建模，来建立一个根据个人基本的特征，预测月收入的模型。

1.首先读取这个表格

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn import tree,datasetsdata = pd.read_csv(r'd:\pycharm\data\adult.csv',header = None,index_col = False,names = ['年龄','单位性质','权重','学历','受教育时长','婚姻状况','职业','家庭情况','种族','性别','资产所得','资产损失','周工作时长','原籍','收入'])
data_select.head()

①读取csv文件需要用到pd.read_csv()函数，因此先导入模块
②pandas.read_csv(“data.csv”)默认情况下，会把数据内容的第一行默认为字段名标题

使用header = None，则不会出现上述情况

③index_col = None / 0 / False

index_col = None / False—重新设置一列成为index值

index_col = 0—第一列为index值

④names[]为column的名称
⑤data_select.head()

2.表格数据预处理

data_dummies = pd.get_dummies(data_select)
data_dummies.head()

pd.get_dummies()
通过data_select.head()可看出，表格中的数据部分是str，此时通过函数将str转换为0,1形式的数字

3.划分训练集与测试集

feature = data_dummies.loc[:,'年龄':'职业_ Transport-moving']
x = feature.values #将特征的值赋给x
y = data_dummies['收入_ >50K'].values

将收入_ > 50k之前的列作为特征，将收入_ > 50k作为目标值

4.模型实例化，将数据放入模型内

X_train,X_test,y_train,y_test = train_test_split(x,y,random_state = 0)
data_tree = tree.DecisionTreeClassifier(max_depth = 5) #模型实例化
#将数据放入模型中
data_tree.fit(X_train,y_train)
data_tree.score(X_test,y_test)#测试模型得分

5.将要测试的数据放入模型中

Mr_Z = [[37, 40,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0]]
data_MrZ = data_tree.predict(Mr_Z)
if data_MrZ == 1:print('张先生月入50k')
else:print('月入低于50k')

sklearn—随机森林—预测一个人的月收入相关推荐

Python使用随机森林预测泰坦尼克号生存
tags: 随机森林 kaggle 数据挖掘 categories: 数据挖掘 mathjax: true 文章目录前言: 1 数据预处理 1.1 读入数据 1.2 训练集与数据集 1.2.1 查看 ...
Python随机森林预测含水率
Python随机森林预测含水率 import pandas as pd import numpy as np import matplotlib.pyplot as plt from sklearn. ...
#第23篇分享：一个北京二手房价格数据挖掘实例（python语言：sklearn随机森林）
#本次是做一个北京二手房的数据挖掘案例,主要是汇总一下学过的知识,并且通过实例加深一下印象,话不多说,开干: 目的:预测二手房的价格: 工具:语言python:爬虫模块scrapy,数据清洗:xpat ...
在jupytor中运行随机森林预测泰坦尼克旅客生存情况
在jupytor中运行随机森林预测泰坦尼克旅客生存情况数据集链接链接: link. 百度网盘:链接: https://pan.baidu.com/s/1_pQ-3iG4dr0hrvU_5hYUtg ...
RandomForest：随机森林预测生物标记biomarker——回归
关于随机森林的简介和应用理论,请阅读之前分享的文章: 一文读懂随机森林在微生态中的应用关于随机森林进行分类的入门实战,请阅读之前分享的 - <RandomForest:随机森林预测生物标记b ...
sklearn随机森林模型：ValueError: Unknown label type: ‘unknown‘
sklearn随机森林模型:ValueError: Unknown label type: 'unknown' 目录 sklearn随机森林模型:ValueError: Unknown label t ...
python在Scikit-learn中用决策树和随机森林预测NBA获胜者
在本文中,我们将以Scikit-learn的决策树和随机森林预测NBA获胜者.美国国家篮球协会(NBA)是北美主要的男子职业篮球联赛,被广泛认为是首屈一指的男子职业篮球联赛在世界上.它有30个团队(美 ...
随机森林预测财务报表是否舞弊
随机森林预测财务报表是否舞弊爬取财务报表设置文件保存在c盘eastmoney文件夹下 1 设置表格爬取时期 2 设置表格爬取起始页数 3 表格正式爬取写入表头方法1 借助csv包,最常用数据 ...
python在Scikit-learn中用决策树和随机森林预测NBA获胜者 1
最近我们被要求撰写关于预测NBA的研究报告,包括一些图形和统计输出.我们将以Scikit-learn的决策树和随机森林预测NBA获胜者.美国国家篮球协会(NBA)是北美主要的男子职业篮球联赛,被广泛认 ...

sklearn—随机森林—预测一个人的月收入

sklearn—随机森林—预测一个人的月收入相关推荐

最新文章

热门文章