最近一系列的数据分析的内容来源于DataWhale开源

1 第一章:数据载入及初步观察

1.1 载入数据

泰坦尼克号数据集下载

1.1.1 任务一:导入numpy和pandas

import numpy as np
import pandas as pd

1.1.2 任务二:载入数据

(1) 使用相对路径载入数据

df = pd.read_csv("train.csv")#相对路径
df.head()


(2) 使用绝对路径载入数据

import os
os.getcwd() #查看当前工作目录
df = pd.read_csv("train.csv的绝对路径")
df.head()

1.1.3 任务三:每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=100)
for chunk in chunker:print(chunk)

chunk的属性为:
<pandas.io.parsers.TextFileReader at 0x237b6459788>

1.1.4 任务四:将表头改成中文,索引改为乘客ID [对于某些英文资料,我们可以通过翻译来更直观的熟悉我们的数据]

df = pd.read_csv("train.csv", names=['乘客ID','是否幸存','乘客等级(1/2/3等舱位)','乘客姓名','性别','年龄','堂兄弟/妹个数'\,'父母与小孩个数','船票信息','票价','客舱','登船港口'], index_col='乘客ID', header=0)
df.head()

1.2 初步观察

1.2.1 任务一:查看数据的基本信息

df.info()

1.2.2 任务二:观察表格前10行的数据和后15行的数据

#前10行
df.head(10)

#后15行
df.tail(15)

1.2.4 任务三:判断数据是否为空,为空的地方返回True,其余地方返回False

df.isnull()

1.3 保存数据

1.3.1 任务一:将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv

df.to_csv("train_chinese.csv")

【总结】数据的加载以及入门,接下来就要接触数据本身的运算,我们将主要掌握numpy和pandas在工作和项目场景的运用。

1.4 知道你的数据叫什么

1.4.1 任务一:pandas中有两个数据类型DateFrame和Series,通过查找简单了解他们。然后自己写一个关于这两个数据类型的小例子

kaggle泰坦尼克数据之数据初步处理相关推荐

  1. Kaggle泰坦尼克数据科学解决方案

    Kaggle泰坦尼克数据科学解决方案 参考文章: (1)Kaggle泰坦尼克数据科学解决方案 (2)https://www.cnblogs.com/zackstang/p/8185531.html ( ...

  2. python mean dropna_小丸子踏入python之路:python_day05(用Pandas处理泰坦尼克船员获救数据titanic_train.csv)...

    泰坦尼克船员获救数据: titanic_train.csv 用excel打开数据集.显示如下: 写在前边: 为了方便以后运用numpy和pandas的库,分别造它们的别名np和pd. import p ...

  3. 数据分析入门 | kaggle泰坦尼克任务

    这个章节主要是参加DataWhale的数据分析项目过程中的记录,希望能对感兴趣的同学有一些帮助. 目录索引 一.章节导航 二.其他集合 一.章节导航 数据分析入门 | kaggle泰坦尼克任务(一)- ...

  4. kaggle 泰坦尼克 高分 预测

    kaggle 泰坦尼克 高分 预测 目录 kaggle 泰坦尼克 高分 预测 1.前言 2.包及数据导入 3.数据的初步认识 4.数据关系的可视化 5.数据清洗与缺失值处理 6.数据的统计分析 7.超 ...

  5. kaggle房价预测特征意思_机器学习-kaggle泰坦尼克生存预测(一)-数据清洗与特征构建...

    1.背景: 1.1 关于kaggle: 谷歌旗下的 Kaggle 是一个数据建模和数据分析竞赛平台.该平台是当下最流行的数据科研赛事平台,其组织的赛事受到全球数据科学爱好者追捧. 如果学生能够在该平台 ...

  6. 数据分析实例(上)——DataWhale202207(kaggle泰坦尼克任务)

    DataWhale课程地址:datawhalechina/hands-on-data-analysis: 动手学数据分析以项目为主线,知识点孕育其中,通过边学.边做.边引导来得到更好的学习效果 (gi ...

  7. kaggle 泰坦尼克项目实战(详细代码分享)——集成学习Soft voting

    顺利注册完kaggle之后,终于可以开始上手撸项目啦! 先从大名鼎鼎的泰坦尼克号开始吧! 尽管网上有很多大神进行了"入门级别"的代码分享讲解,但我看了一轮仍然觉得对新手不够友好. ...

  8. kaggle 泰坦尼克事件——随机森林算法实现

    泰坦尼克事件--随机森林算法实现 前言 实现步骤 1.引入库 2.加载数据集 3.具体步骤 4.数据清洗 5.进行特征构建 6.构建新的字段,基于scikit-learn中的LabelEncoder( ...

  9. 机器学习基础—Kaggle泰坦尼克预测(完整分析)

    1.引言 我们先找个简单的实际例子,来看看,所谓的数据挖掘或者机器学习实际应用到底是怎么样一个过程. 2.背景 2.1 关于Kaggle Kaggle是一个数据分析建模的应用竞赛平台,有点类似KDD- ...

  10. python__画图表可参考(转自:寒小阳 逻辑回归应用之Kaggle泰坦尼克之灾)

    出处:http://blog.csdn.net/han_xiaoyang/article/details/49797143 2.背景 2.1 关于Kaggle 我是Kaggle地址,翻我牌子 亲,逼格 ...

最新文章

  1. valgrind 使用 kcachegrind 查看函数运行时间
  2. 储存卡怎么格式化为fat32_电脑复制文件到U盘提示文件容量太大该怎么办?
  3. 监控路由器虚拟服务器,远程监控路由器虚拟服务器设置
  4. mysql老是自动停止_ecs云服务器 mysql经常自动停止挂掉重启问题分析
  5. ubuntu dhcp ping 不通 自己_??2、DHCP安装和配置
  6. JS获取当前对象大小以及屏幕分辨率等
  7. 超图Cesium鼠标事件处理
  8. scrapy item.py
  9. 若依mybatis返回map将下划线命名转为驼峰式命名
  10. asp.net在发送邮件时出现服务器响应为: You are not authorized to send mail, authentication is required 解决方案...
  11. SHAP(SHapley Additive exPlanation):Python的可解释机器学习库
  12. easyui 图标下拉框
  13. IE疑难杂症之已取消网页导航--该站点安全证书的吊销信息不可用
  14. [Rootkit] dll 隐藏 - VAD
  15. 树莓派官网VNC配置
  16. 计算机二级 公共基础知识资料
  17. 地铁译:Spark for python developers ---Spark的数据戏法
  18. 愉快的学习就从翻译开始吧_0-Time Series Forecasting with the Long Short-Term Memory Network in Python
  19. 极市直播预告丨阿里达摩院:兼顾速度与精度的高效目标检测框架DAMO-YOLO
  20. C++运算符重载典型习题---复数类 String类 分数类

热门文章

  1. 机器人柔性抛光打磨不锈钢
  2. 前后端分离(SpringBoot+Vue)-基础的权限管理系统
  3. Outlook2003数据备份的方法讲解
  4. 目前比较流行的Python量化开源框架汇总(交易+风险分析工具)
  5. bzoj 4826 [Hnoi2017]影魔
  6. 生物神经网络与机器学习的碰撞,Nature论文提出DNA试管网络识别手写数字
  7. 40岁还能学python么_30天看了250集python教程,我发现40岁学编程并不晚
  8. 赵雷_三十岁的女人_C调入门版_高音教编配
  9. Paint及Canvas的简单应用
  10. 会员权限 表设计mysql_求用户-权限数据库表设计方案