目录

一、读取数据

二、设置特征值和目标值

三、数据处理

1、缺失值处理

2、特征值转换为字典

3、划分数据集

四、特征工程(字典特征值提取)

五、获取决策树预估器,训练

六、模型评估

方法一:比对

方法二:计算得分

总代码


一、读取数据

资源下载链接1(推荐):https://download.csdn.net/download/great_yzl/22363793

资源下载链接2(不推荐):

https://pan.baidu.com/s/17DeVm48VRG0tlEzQM0KfSA 
提取码:gx4a

# 1、读取数据
data = pd.read_csv('titanic.csv')

二、设置特征值和目标值

# 2、设置特征值和目标值
train = data[['pclass', 'age', 'room', 'sex']]
test = list(data['survived'])

三、数据处理

1、缺失值处理

可以看出来,上面这些明显是缺失了一些数据,这样在后面运行的时候会报错。

# 3-1、缺失值处理
train['age'].fillna(train['age'].mean(), inplace=True)
train['room'].fillna(train['room'][0], inplace=True)

2、特征值转换为字典

# 3-2、特征值转换为字典
train = train.to_dict(orient='records')
print(train)

3、划分数据集

# 4、划分数据集
train_data, test_data, train_target, test_target = train_test_split(train, test)

四、特征工程(字典特征值提取)

# 4、特征工程(字典特征值提取)
transfer = DictVectorizer()
train_data = transfer.fit_transform(train_data)
test_data = transfer.transform(test_data)
# print(train_data)

五、获取决策树预估器,训练

# 6、决策树预估器,训练
estimator = DecisionTreeClassifier()
estimator.fit(train_data, train_target)

六、模型评估

方法一:比对

# 方法一:比对
predict = estimator.predict(test_data)
print(predict == test_target)

方法二:计算得分

# 方法二:计算分数(正确率)
score = estimator.score(test_data, test_target)
print('准确率为:', score)

总代码

# 泰坦尼克号(游客存活率预估)
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.tree import DecisionTreeClassifier# 1、读取数据
data = pd.read_csv('titanic.csv')
# print(data)# 2、设置特征值和目标值
train = data[['pclass', 'age', 'room', 'sex']]
test = list(data['survived'])# 3、数据处理
# 3-1、缺失值处理
train['age'].fillna(train['age'].mean(), inplace=True)
train['room'].fillna(train['room'][0], inplace=True)# 3-2、特征值转换为字典
train = train.to_dict(orient='records')# 3-3、划分数据集
train_data, test_data, train_target, test_target = train_test_split(train, test)
# print(train_data)# 4、特征工程(字典特征值提取)
transfer = DictVectorizer()
train_data = transfer.fit_transform(train_data)
test_data = transfer.transform(test_data)
# print(train_data)# 5、决策树预估器,训练
estimator = DecisionTreeClassifier()
estimator.fit(train_data, train_target)# 6、模型评估
# 方法一:比对
predict = estimator.predict(test_data)
print(predict == test_target)# 方法二:计算分数(正确率)
score = estimator.score(test_data, test_target)
print('准确率为:', score)

机器学习(实战)泰坦尼克号(游客存活率预估)相关推荐

  1. 机器学习实战——泰坦尼克号

    通过泰坦尼克号生存项目来熟悉机器学习的整个流程,数据来源是kaggle上的titanic数据.该项目从数据获取->数据清洗->特征处理->构建模型->模型评估5个步骤进行分析. ...

  2. 机器学习实战-泰坦尼克号生存预测案例

    泰坦尼克号生存预测案例 操作平台:Jupyter Notebook 实验数据:从官方下载的泰坦尼克号测试集与训练集 使用语言:python 实验步骤: 安装我们所需要的第三方库,本次实验需要额外下载安 ...

  3. 《机器学习实战》二 房价预估

    一.查看自己的机器学习项目清单,看是否做过类似项目.(算法,模型等) 二.划定问题 1.商业目标:公司如何使用模型,需要什么指标评估模型? 交给自己的任务是解决哪个阶段的问题? 2. 目前需要改进的解 ...

  4. 机器学习实战 泰坦尼克号生存预测

    数据集下载 链接:https://pan.baidu.com/s/1f6x0ZHlAdwch52rHKDYBgA 提取码:9hgz 数据集简介 PassengerId: 乘客ID Survived: ...

  5. 机器学习(10)随机森林(预测泰坦尼克号旅客存活率)

    目录 一.基础理论 1.集成学习方法 2.随机森林 API 二.过程 1.创建随机森林预估器 2.参数准备(网格搜索) 3.训练 模型评估结果: 总代码 一.基础理论 1.集成学习方法 集成学习通过建 ...

  6. Kaggle泰坦尼克号数据机器学习实战:从缺失值处理、数据探索性分析、组合特征生成到多模型构建

    Kaggle泰坦尼克号数据机器学习实战:从缺失值处理.数据探索性分析.组合特征生成到多模型构建 泰坦尼克号的沉没是历史上最为人熟知的海难事件之一. 1912 年 4 月 15 日,在她的处女航中,泰坦 ...

  7. 【阿旭机器学习实战】【13】决策树分类模型实战:泰坦尼克号生存预测

    [阿旭机器学习实战]系列文章主要介绍机器学习的各种算法模型及其实战案例,欢迎点赞,关注共同学习交流. 本文用机器学习中的决策树分类模型对泰坦尼克号生存项目进行预测. 关于决策树的详细介绍及原理参见前一 ...

  8. 机器学习实战 | 机器学习特征工程最全解读

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/41 本文地址:https://www.showmeai.tech/article-d ...

  9. 机器学习实战 | SKLearn最全应用指南

    Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/cou ...

最新文章

  1. 《浪潮之巅》作者吴军最新演讲:超级人工智能
  2. MongoDB管理: 使用killOp干掉Long Running Operation
  3. 中运量71路线路图_浦东临港的中运量呼之欲出:临港地区已经成为上海建设的热土...
  4. C语言再学习 -- 标识符
  5. git fatal:HttpRequestException encountered
  6. Playground
  7. Spring 3使用JUnit 4进行测试– ContextConfiguration和AbstractTransactionalJUnit4SpringContextTests...
  8. circlegan_CycleGAN原理以及代码全解析
  9. 奥鹏东师计算机应用基础18,免费在线作业答案奥鹏东师计算机应用基础15秋在线作业1试卷及答案(1)...
  10. PHP-Java-Bridge使用笔记
  11. win11开热点连接之后无网络解决方案
  12. 华为大数据解决方案(PPT)
  13. 数据包络分析DEA有哪些指标?
  14. python编写翻译器_用Python做一个简单的翻译工具
  15. C语言编程齿轮轮廓线坐标,c语言程序实现齿轮基本参数几何尺寸计算.pdf
  16. 国内常见php的CMS建站系统情况分析
  17. 重构手法46:Parameterize Method (令函数携带参数)
  18. TiDB 的现在和未来
  19. flutter doctor --android-licenses后Android sdkmanager not found.
  20. SE(3)和se(3),左扰动模型

热门文章

  1. Linux-CentOS 查看(监控)服务器网卡流量
  2. 用vue-cli脚手架搭建一个仿网易云音乐的全家桶vue项目
  3. NET基础(3):is 和 as 操作符
  4. Javascript 拖拽的一些高级的应用——逐行分析代码,让你轻松了解拖拽的原理...
  5. Linux下getsockopt/setsockopt 函数说明
  6. Tile Racer — 3D 赛车游戏
  7. Google Chrome(谷歌浏览器) 发布下载
  8. python读取文件r_python read文件的r和rb的区别
  9. java之gui索引窗口_老白的JAVA课程14 GUI 窗口的设置
  10. 平台如何限制ip流量_ABTest 平台设计 - 如何进行流量分桶