kaggle泰坦尼克数据之数据初步处理
最近一系列的数据分析的内容来源于DataWhale开源
1 第一章:数据载入及初步观察
1.1 载入数据
泰坦尼克号数据集下载
1.1.1 任务一:导入numpy和pandas
import numpy as np
import pandas as pd
1.1.2 任务二:载入数据
(1) 使用相对路径载入数据
df = pd.read_csv("train.csv")#相对路径
df.head()
(2) 使用绝对路径载入数据
import os
os.getcwd() #查看当前工作目录
df = pd.read_csv("train.csv的绝对路径")
df.head()
1.1.3 任务三:每1000行为一个数据模块,逐块读取
chunker = pd.read_csv('train.csv', chunksize=100)
for chunk in chunker:print(chunk)
chunk的属性为:
<pandas.io.parsers.TextFileReader at 0x237b6459788>
1.1.4 任务四:将表头改成中文,索引改为乘客ID [对于某些英文资料,我们可以通过翻译来更直观的熟悉我们的数据]
df = pd.read_csv("train.csv", names=['乘客ID','是否幸存','乘客等级(1/2/3等舱位)','乘客姓名','性别','年龄','堂兄弟/妹个数'\,'父母与小孩个数','船票信息','票价','客舱','登船港口'], index_col='乘客ID', header=0)
df.head()
1.2 初步观察
1.2.1 任务一:查看数据的基本信息
df.info()
1.2.2 任务二:观察表格前10行的数据和后15行的数据
#前10行
df.head(10)
#后15行
df.tail(15)
1.2.4 任务三:判断数据是否为空,为空的地方返回True,其余地方返回False
df.isnull()
1.3 保存数据
1.3.1 任务一:将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv
df.to_csv("train_chinese.csv")
【总结】数据的加载以及入门,接下来就要接触数据本身的运算,我们将主要掌握numpy和pandas在工作和项目场景的运用。
1.4 知道你的数据叫什么
1.4.1 任务一:pandas中有两个数据类型DateFrame和Series,通过查找简单了解他们。然后自己写一个关于这两个数据类型的小例子
kaggle泰坦尼克数据之数据初步处理相关推荐
- Kaggle泰坦尼克数据科学解决方案
Kaggle泰坦尼克数据科学解决方案 参考文章: (1)Kaggle泰坦尼克数据科学解决方案 (2)https://www.cnblogs.com/zackstang/p/8185531.html ( ...
- python mean dropna_小丸子踏入python之路:python_day05(用Pandas处理泰坦尼克船员获救数据titanic_train.csv)...
泰坦尼克船员获救数据: titanic_train.csv 用excel打开数据集.显示如下: 写在前边: 为了方便以后运用numpy和pandas的库,分别造它们的别名np和pd. import p ...
- 数据分析入门 | kaggle泰坦尼克任务
这个章节主要是参加DataWhale的数据分析项目过程中的记录,希望能对感兴趣的同学有一些帮助. 目录索引 一.章节导航 二.其他集合 一.章节导航 数据分析入门 | kaggle泰坦尼克任务(一)- ...
- kaggle 泰坦尼克 高分 预测
kaggle 泰坦尼克 高分 预测 目录 kaggle 泰坦尼克 高分 预测 1.前言 2.包及数据导入 3.数据的初步认识 4.数据关系的可视化 5.数据清洗与缺失值处理 6.数据的统计分析 7.超 ...
- kaggle房价预测特征意思_机器学习-kaggle泰坦尼克生存预测(一)-数据清洗与特征构建...
1.背景: 1.1 关于kaggle: 谷歌旗下的 Kaggle 是一个数据建模和数据分析竞赛平台.该平台是当下最流行的数据科研赛事平台,其组织的赛事受到全球数据科学爱好者追捧. 如果学生能够在该平台 ...
- 数据分析实例(上)——DataWhale202207(kaggle泰坦尼克任务)
DataWhale课程地址:datawhalechina/hands-on-data-analysis: 动手学数据分析以项目为主线,知识点孕育其中,通过边学.边做.边引导来得到更好的学习效果 (gi ...
- kaggle 泰坦尼克项目实战(详细代码分享)——集成学习Soft voting
顺利注册完kaggle之后,终于可以开始上手撸项目啦! 先从大名鼎鼎的泰坦尼克号开始吧! 尽管网上有很多大神进行了"入门级别"的代码分享讲解,但我看了一轮仍然觉得对新手不够友好. ...
- kaggle 泰坦尼克事件——随机森林算法实现
泰坦尼克事件--随机森林算法实现 前言 实现步骤 1.引入库 2.加载数据集 3.具体步骤 4.数据清洗 5.进行特征构建 6.构建新的字段,基于scikit-learn中的LabelEncoder( ...
- 机器学习基础—Kaggle泰坦尼克预测(完整分析)
1.引言 我们先找个简单的实际例子,来看看,所谓的数据挖掘或者机器学习实际应用到底是怎么样一个过程. 2.背景 2.1 关于Kaggle Kaggle是一个数据分析建模的应用竞赛平台,有点类似KDD- ...
- python__画图表可参考(转自:寒小阳 逻辑回归应用之Kaggle泰坦尼克之灾)
出处:http://blog.csdn.net/han_xiaoyang/article/details/49797143 2.背景 2.1 关于Kaggle 我是Kaggle地址,翻我牌子 亲,逼格 ...
最新文章
- valgrind 使用 kcachegrind 查看函数运行时间
- 储存卡怎么格式化为fat32_电脑复制文件到U盘提示文件容量太大该怎么办?
- 监控路由器虚拟服务器,远程监控路由器虚拟服务器设置
- mysql老是自动停止_ecs云服务器 mysql经常自动停止挂掉重启问题分析
- ubuntu dhcp ping 不通 自己_??2、DHCP安装和配置
- JS获取当前对象大小以及屏幕分辨率等
- 超图Cesium鼠标事件处理
- scrapy item.py
- 若依mybatis返回map将下划线命名转为驼峰式命名
- asp.net在发送邮件时出现服务器响应为: You are not authorized to send mail, authentication is required 解决方案...
- SHAP(SHapley Additive exPlanation):Python的可解释机器学习库
- easyui 图标下拉框
- IE疑难杂症之已取消网页导航--该站点安全证书的吊销信息不可用
- [Rootkit] dll 隐藏 - VAD
- 树莓派官网VNC配置
- 计算机二级 公共基础知识资料
- 地铁译:Spark for python developers ---Spark的数据戏法
- 愉快的学习就从翻译开始吧_0-Time Series Forecasting with the Long Short-Term Memory Network in Python
- 极市直播预告丨阿里达摩院:兼顾速度与精度的高效目标检测框架DAMO-YOLO
- C++运算符重载典型习题---复数类 String类 分数类
热门文章
- 机器人柔性抛光打磨不锈钢
- 前后端分离(SpringBoot+Vue)-基础的权限管理系统
- Outlook2003数据备份的方法讲解
- 目前比较流行的Python量化开源框架汇总(交易+风险分析工具)
- bzoj 4826 [Hnoi2017]影魔
- 生物神经网络与机器学习的碰撞,Nature论文提出DNA试管网络识别手写数字
- 40岁还能学python么_30天看了250集python教程,我发现40岁学编程并不晚
- 赵雷_三十岁的女人_C调入门版_高音教编配
- Paint及Canvas的简单应用
- 会员权限 表设计mysql_求用户-权限数据库表设计方案
Kaggle泰坦尼克数据科学解决方案 参考文章: (1)Kaggle泰坦尼克数据科学解决方案 (2)https://www.cnblogs.com/zackstang/p/8185531.html ( ...
泰坦尼克船员获救数据: titanic_train.csv 用excel打开数据集.显示如下: 写在前边: 为了方便以后运用numpy和pandas的库,分别造它们的别名np和pd. import p ...
这个章节主要是参加DataWhale的数据分析项目过程中的记录,希望能对感兴趣的同学有一些帮助. 目录索引 一.章节导航 二.其他集合 一.章节导航 数据分析入门 | kaggle泰坦尼克任务(一)- ...
kaggle 泰坦尼克 高分 预测 目录 kaggle 泰坦尼克 高分 预测 1.前言 2.包及数据导入 3.数据的初步认识 4.数据关系的可视化 5.数据清洗与缺失值处理 6.数据的统计分析 7.超 ...
1.背景: 1.1 关于kaggle: 谷歌旗下的 Kaggle 是一个数据建模和数据分析竞赛平台.该平台是当下最流行的数据科研赛事平台,其组织的赛事受到全球数据科学爱好者追捧. 如果学生能够在该平台 ...
DataWhale课程地址:datawhalechina/hands-on-data-analysis: 动手学数据分析以项目为主线,知识点孕育其中,通过边学.边做.边引导来得到更好的学习效果 (gi ...
顺利注册完kaggle之后,终于可以开始上手撸项目啦! 先从大名鼎鼎的泰坦尼克号开始吧! 尽管网上有很多大神进行了"入门级别"的代码分享讲解,但我看了一轮仍然觉得对新手不够友好. ...
泰坦尼克事件--随机森林算法实现 前言 实现步骤 1.引入库 2.加载数据集 3.具体步骤 4.数据清洗 5.进行特征构建 6.构建新的字段,基于scikit-learn中的LabelEncoder( ...
1.引言 我们先找个简单的实际例子,来看看,所谓的数据挖掘或者机器学习实际应用到底是怎么样一个过程. 2.背景 2.1 关于Kaggle Kaggle是一个数据分析建模的应用竞赛平台,有点类似KDD- ...
出处:http://blog.csdn.net/han_xiaoyang/article/details/49797143 2.背景 2.1 关于Kaggle 我是Kaggle地址,翻我牌子 亲,逼格 ...