深入浅出python机器学习_6.3.1_随机森林实例——要不要和相亲对象进一步发展

# 6.3.1 数据集的准备import pandas as pddata=pd.read_csv('adult.csv',header=None,index_col=False,names=['年龄','单位性质','权重','学历','受教育时长','婚姻状况','职业','家庭状况','种族','性别','资产所得','资产损失','周工作时长','原籍','收入'])
data_lite=data[['年龄','单位性质','学历','性别','周工作时长','职业','收入']]display(data_lite.head())

	年龄	单位性质	学历	性别	周工作时长	职业	收入
0	39	State-gov	Bachelors	Male	40	Adm-clerical	<=50K
1	50	Self-emp-not-inc	Bachelors	Male	13	Exec-managerial	<=50K
2	38	Private	HS-grad	Male	40	Handlers-cleaners	<=50K
3	53	Private	11th	Male	40	Handlers-cleaners	<=50K
4	28	Private	Bachelors	Female	40	Prof-specialty	<=50K

# 6.3.2 用get_dummies处理数据data_dummies=pd.get_dummies(data_lite)print('样本原始特征：\n',list(data_lite.columns),'\n')print('虚拟变量特征：\n',list(data_dummies.columns),'\n')print('data_dummies.shape:\n',data_dummies.shape,'\n')print('data_dummies的类型：\n',type(data_dummies))

样本原始特征：['年龄', '单位性质', '学历', '性别', '周工作时长', '职业', '收入'] 虚拟变量特征：['年龄', '周工作时长', '单位性质_ ?', '单位性质_ Federal-gov', '单位性质_ Local-gov', '单位性质_ Never-worked', '单位性质_ Private', '单位性质_ Self-emp-inc', '单位性质_ Self-emp-not-inc', '单位性质_ State-gov', '单位性质_ Without-pay', '学历_ 10th', '学历_ 11th', '学历_ 12th', '学历_ 1st-4th', '学历_ 5th-6th', '学历_ 7th-8th', '学历_ 9th', '学历_ Assoc-acdm', '学历_ Assoc-voc', '学历_ Bachelors', '学历_ Doctorate', '学历_ HS-grad', '学历_ Masters', '学历_ Preschool', '学历_ Prof-school', '学历_ Some-college', '性别_ Female', '性别_ Male', '职业_ ?', '职业_ Adm-clerical', '职业_ Armed-Forces', '职业_ Craft-repair', '职业_ Exec-managerial', '职业_ Farming-fishing', '职业_ Handlers-cleaners', '职业_ Machine-op-inspct', '职业_ Other-service', '职业_ Priv-house-serv', '职业_ Prof-specialty', '职业_ Protective-serv', '职业_ Sales', '职业_ Tech-support', '职业_ Transport-moving', '收入_ <=50K', '收入_ >50K'] data_dummies.shape:(32561, 46) data_dummies的类型：<class 'pandas.core.frame.DataFrame'>

# 显示数据集中的前五行#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)data_dummies.head()

	年龄	周工作时长	单位性质_ Private	单位性质_ Self-emp-not-inc	单位性质_ State-gov	学历_ 11th	学历_ Bachelors	学历_ HS-grad	性别_ Female	性别_ Male	职业_ Adm-clerical	职业_ Exec-managerial	职业_ Handlers-cleaners	职业_ Prof-specialty	收入_ <=50K
0	39	40	0	0	1	0	1	0	0	1	1	0	0	0	1
1	50	13	0	1	0	0	1	0	0	1	0	1	0	0	1
2	38	40	1	0	0	0	0	1	0	1	0	0	1	0	1
3	53	40	1	0	0	1	0	0	0	1	0	0	1	0	1
4	28	40	1	0	0	0	1	0	1	0	0	0	0	1	1

features=data_dummies.loc[:,'年龄':'职业_ Transport-moving']print('features的类型：\n',type(features),'\n')X=features.valuesprint('X的类型：\n',type(X),'\n')print('打印X的前五行:\n',X[:5,:])y=data_dummies['收入_ >50K'].valuesprint('特征形态：{} 标签形态{}'.format(X.shape,y.shape))# 避免显示不全：
# import numpy as np
# np.set_printoptions(threshold=np.inf)

features的类型：<class 'pandas.core.frame.DataFrame'> X的类型：<class 'numpy.ndarray'> 打印X的前五行:[[39 40  0  0  0  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0  1  0  0  00  0  0  0  1  0  1  0  0  0  0  0  0  0  0  0  0  0  0  0][50 13  0  0  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0  0  1  0  0  00  0  0  0  1  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0][38 40  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0  0  0  0  0  0  1  00  0  0  0  1  0  0  0  0  0  0  1  0  0  0  0  0  0  0  0][53 40  0  0  0  0  1  0  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0  00  0  0  0  1  0  0  0  0  0  0  1  0  0  0  0  0  0  0  0][28 40  0  0  0  0  1  0  0  0  0  0  0  0  0  0  0  0  0  0  1  0  0  00  0  0  1  0  0  0  0  0  0  0  0  0  0  0  1  0  0  0  0]]
特征形态：(32561, 44) 标签形态(32561,)

features.columnstype(features.columns)

pandas.core.indexes.base.Index

# 用决策树建模并作出预测
from sklearn.model_selection import train_test_splitX_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0)from sklearn import treego_dating_tree=tree.DecisionTreeClassifier(max_depth=5)go_dating_tree.fit(X_train,y_train)print('模型的分：{:.2f}'.format(go_dating_tree.score(X_test,y_test)))

模型的分：0.80

深入浅出python机器学习_6.3.1_随机森林实例——要不要和相亲对象进一步发展相关推荐

深入浅出python机器学习_4.3.1_岭回归的原理 4.3.2_岭回归的参数调节
# 重启显示图加这句代码就好了 %matplotlib inlinefrom sklearn.linear_model import LinearRegressionfrom sklearn.mode ...
深入浅出python机器学习_3.3.1_对数据集进行分析
from sklearn.datasets import load_winewine_dataset=load_wine()print('\n\n\n')print('代码运行结果')print('= ...
Python电影观众数量回归分析随机森林可视化实验报告
实验代码:Python电影观众数量回归分析随机森林可视化-数据挖掘文档类资源-CSDN文库前言随着经济的发展和人民日益增长的美好生活需要的显著提升,看电影成为了人民群众在闲暇时光娱乐的重要途径.面 ...
机器学习中决策树的随机森林_决策树和随机森林在机器学习中的使用
机器学习中决策树的随机森林机器学习 (Machine Learning) Machine learning is an application of artificial intelligence ...
回归素材(part10)--深入浅出python机器学习
学习笔记,仅供参考,有错必纠文章目录深入浅出python机器学习线性回归基本原理使用 L 2 L_2 L<
机器学习基础算法之随机森林
英文原文<The Random Forest Algorithm> 专知编译<机器学习基础算法之随机森林> [导读]在当今深度学习如此火热的背景下,其他基础的机器学习算法显得 ...
Python计算树模型（随机森林、xgboost等）的特征重要度及其波动程度：基于熵减的特征重要度计算及可视化、基于特征排列的特征重要性（feature permutation）计算及可视化
Python计算树模型(随机森林.xgboost等)的特征重要度及其波动程度:基于熵减的特征重要度计算及可视化.基于特征排列的特征重要性(feature permutation)计算及可视化目录
随机森林实例：利用基于CART算法的随机森林（Random Forest）树分类方法对于红酒质量进行预测
随机森林实例:利用基于CART算法的随机森林(Random Forest)树分类方法对于红酒质量进行预测 1.引言 2.理论基础 2.1 什么是决策树 2.2 特征选择的算法 2.2.1 ID3:基于 ...
3.1、随机森林之随机森林实例
随机森林 junjun 2016年2月8日随机森林实例 Markdown脚本及数据集:http://pan.baidu.com/s/1bnY6ar9 实例一.用随机森林对鸢尾花数据进行分类 #1.加 ...

深入浅出python机器学习_6.3.1_随机森林实例——要不要和相亲对象进一步发展

深入浅出python机器学习_6.3.1_随机森林实例——要不要和相亲对象进一步发展相关推荐

最新文章

热门文章

	年龄	周工作时长	单位性质_ Private	单位性质_ Self-emp-not-inc	单位性质_ State-gov	学历_ 11th	学历_ Bachelors	学历_ HS-grad	性别_ Female	性别_ Male	职业_ Adm-clerical	职业_ Exec-managerial	职业_ Handlers-cleaners	职业_ Prof-specialty	收入_ <=50K
0	39	40	0	0	1	0	1	0	0	1	1	0	0	0	1
1	50	13	0	1	0	0	1	0	0	1	0	1	0	0	1
2	38	40	1	0	0	0	0	1	0	1	0	0	1	0	1
3	53	40	1	0	0	1	0	0	0	1	0	0	1	0	1
4	28	40	1	0	0	0	1	0	1	0	0	0	0	1	1

	年龄	周工作时长	单位性质_ Private	单位性质_ Self-emp-not-inc	单位性质_ State-gov	学历_ 11th	学历_ Bachelors	学历_ HS-grad	性别_ Female	性别_ Male	职业_ Adm-clerical	职业_ Exec-managerial	职业_ Handlers-cleaners	职业_ Prof-specialty	收入_ <=50K
0	39	40	0	0	1	0	1	0	0	1	1	0	0	0	1
1	50	13	0	1	0	0	1	0	0	1	0	1	0	0	1
2	38	40	1	0	0	0	0	1	0	1	0	0	1	0	1
3	53	40	1	0	0	1	0	0	0	1	0	0	1	0	1
4	28	40	1	0	0	0	1	0	1	0	0	0	0	1	1

	年龄	周工作时长	单位性质_ Private	单位性质_ Self-emp-not-inc	单位性质_ State-gov	学历_ 11th	学历_ Bachelors	学历_ HS-grad	性别_ Female	性别_ Male	职业_ Adm-clerical	职业_ Exec-managerial	职业_ Handlers-cleaners	职业_ Prof-specialty	收入_ <=50K
0	39	40	0	0	1	0	1	0	0	1	1	0	0	0	1
1	50	13	0	1	0	0	1	0	0	1	0	1	0	0	1
2	38	40	1	0	0	0	0	1	0	1	0	0	1	0	1
3	53	40	1	0	0	1	0	0	0	1	0	0	1	0	1
4	28	40	1	0	0	0	1	0	1	0	0	0	0	1	1