一、数据载入及初步观察

1. 载入数据

1.1 打开JupyterLab 导入numpy、pandas

1.2 使用绝对路径、相对路径载入数据

首先,使用path1=os.path.abspath('.') 表示当前所处文件夹的绝对路径,print(path1)显示当前绝对路径。

使用绝对路径导入数据

使用相对路径导入数据

1.3 加载文档的方式

1.4 pd.read_csv与pd.read_table

pd.read_table是以制表符‘\t’作为数据的标志,可以看出,读完后每个字符串之间有逗号相隔,每一行字符串为一列。

而 pd.read_csv读完后是每一个字符串作为一列。

1.5 逐块读取数据

读取数据时设置chunkersize为1000:

用for循环print出结果:

1.6 将columns更改为中文

方法一:读取数据时对columns直接命名:

方法二:已读取过数据,可用rename()进行修改:

2. 初步观察

2.1 查看数据基本信息

用info()查看数据基本信息,可以看到数据样本数共891条,有12个字段,每个字段非空值个数和数据类型一目了然,现在能够观察出字段【年龄】、【客舱】、【登船港口】是存在缺失值,需要后续进行数据处理。

也可以用shape查看整个数据的大小,用dtype查看数据的类型:

2.2 观察前10行和后15行数据情况

 2.3 观察数据是否有空值

可以通过自定义函数的形式展示出每个字段空值、非空值的个数:

2.4 用describe()展示数据基本情况

用describe()展示出每个数值型指标的总计数、中位数、标准差、最小值、最大值、25%分位数、50%分位数和75%分位数,可以观察到:

2.5 测试集与训练集保持一致

首先,载入测试集:

对比测试集与训练集的columns,观察是否存在不同字段:

很明显,测试集相较于训练集多了【Unnamed:0】、【a】字段,现在用drop()删除:

2.6 暂时隐藏['PassengerId','Name','Age','Ticket']这几个列元素

2.7 筛选信息

按照所需条件进行筛选:

现在我们筛选出年龄在10岁以下的乘客:

年龄在10岁以上和50岁以下的乘客:

筛选出midage中第100、105、108行的乘客【Pclass】、【Name】、【Sex】信息,因为midage中的index不是连续排列,我们需要重新设置索引,然后再进行筛选:

用iloc()进行同样条件的筛选:

小结:可以选择直接用切片选择部分数据,也可以用loc()、iloc()进行选取,loc()是按照标签进行筛选,而iloc()是按所在位置进行筛选。

3. 探索性数据分析

3.1 用sort_index()对索引进行排序

3.2 用sort_values()对特定列进行排序

3.3 按【年龄】、【票价】进行排序

3.4 两个dataframe相加

只要其中一个dataframe中的值不存在,返回结果为NaN:

3.5 船上最大家族人数

算数family_num后进行排序可得最大家族人数11人:

3.6 基本信息统计

用describe()展示出每个数值型指标的总计数、中位数、标准差、最小值、最大值、25%分位数、50%分位数和75%分位数,可以观察到:

1. 乘客等级mean为2.3左右,25%分位数为2,50%、75%分位数都为3,说明大部分的乘客等级为2和3,一等座是少部分乘客,而乘客等级可能是影响幸存的重要因素;

2. 乘客年龄差较大,部分集中在20-40岁左右;

3. 50%以上的乘客都没有兄弟姐妹;

4. 75%以上的乘客是没有父母与小孩的;

5. 不同票的差价大,最高达512左右,后续可能需要标准化处理;

6. 少于半数的乘客幸存。

动手学数据分析task01 数据加载及探索性数据分析(笔记)相关推荐

  1. Task01 数据加载及探索性数据分析

    文章目录 前言 1. 第一章:数据载入及初步观察 1.1 载入数据 1.1.1 任务一:导入numpy和pandas 1.1.2 任务二:载入数据 1.1.3 任务三:每1000行为一个数据模块,逐块 ...

  2. Datawhale7月组队学习task1数据加载及探索性数据分析

    Datawhale7月task1数据加载及探索性数据分析 ​ 有幸了解到了Datawhale这样一个开源组织,欣然报名了2021年7月的组队学习的动手学数据分析系列课程 ​ 本系列目标:完成kaggl ...

  3. 泰坦尼克号-数据加载及探索性数据分析

    数据加载及探索性数据分析 这部分内容主要分:数据加载.Pandas基础.探索性数据分析. 1.导入numpy.pandas及查看python版本 import pandas as pd import ...

  4. 动手学数据分析(一)- 数据加载及探索性数据分析

    1 初心 本系列笔记用于记录自己第一次参加Datawhale的组队学习.自己马上开启研究生学习生涯,因此熟练掌握数据分析这一重要技能对未来的学习能够提供很大的帮助,Datawhale团队在项目初衷里说 ...

  5. python录入数据至ppt_利用Python进行数据分析之 数据加载.ppt

    利用Python进行数据分析之 数据加载 " " " " 数据加载,存储与文件格式 1,读写文本格式数据: (read_csv,read_table,read_ ...

  6. 动手学数据分析——Task01_数据加载

    前言 这是一门诞生于datawhale的课程,学习它的时候搭配datawhale所配备其他资源会更好,项目地址:https://github.com/datawhalechina/hands-on-d ...

  7. python数据分析笔记——数据加载与整理

    Python数据分析--数据加载与整理 总第47篇 ▼ (本文框架) 数据加载 导入文本数据 1.导入文本格式数据(CSV)的方法: 方法一:使用pd.read_csv(),默认打开csv文件. 9. ...

  8. 《利用Python进行数据分析·第2版》第6章 数据加载、存储与文件格式

    第1章 准备工作 第2章 Python语法基础,IPython和Jupyter 第3章 Python的数据结构.函数和文件 第4章 NumPy基础:数组和矢量计算 第5章 pandas入门 第6章 数 ...

  9. 利用Python进行数据分析(四):数据加载、存储与文件格式

    标题利用Python进行数据分析(四):数据加载.存储与文件格式 学习笔记来源于:简书https://www.jianshu.com/p/047d8c1c7e14 输入输出通常可以划分为几个大类:读取 ...

最新文章

  1. 花费我一个月实习的工资买了一个软件测试就业班课程,成功转行了算是
  2. Ubuntu14.04下安装eclipse
  3. .net 调用命令行进行解压缩
  4. 栈(stack)和堆(heap)
  5. Ubuntu NFS服务器的配置
  6. Cloud Insight 客户案例-晨芯时代科技有限公司
  7. struts2+extjs文件上传完整实现(攻克了上传中的各种问题)
  8. 链表题目---3 合并两个有序单链表 和 分割链表
  9. 80后程序员月薪30K+感慨中年危机,面试必问!
  10. linux网络代码结构
  11. Nginx 指令目录(中文版)
  12. 【codevs1519】 过路费
  13. Ueditor、FCKeditor、Kindeditor编辑器漏洞
  14. 微信小程序源码及H5小游戏源码内核构建方法
  15. Origin在保存多因子箱线图模板时,怎样在下次应用时,直接使用RAW数据?
  16. PHP - 下载/传输远程服务器上的文件到本地服务器
  17. C4D快速入门教程——软件界面介绍
  18. TikTok干货分享:最新基金提现步骤之W9和Paypal
  19. android 矢量图片使用方法,Android中的矢量图
  20. 彻底弄清补码加减法运算,正数、负数位移运算原理

热门文章

  1. matlab simulink四旋翼无人机模糊PID控制姿态
  2. Company Meeting
  3. 通知!2022年成都市科学技术局关于组织申报重点研发计划(重大科技专项)、科技创新基地(平台)和人才计划项目指南
  4. guido python_Guido老爹谈Python的未来
  5. zabbix监控mysq且配置自动发送报警邮件
  6. Matplotlib 中文宋体 英文 Times New Roman 设置
  7. 基于51单片机实现LED模拟交通灯(Proteus仿真)
  8. 用Python3实现端口扫描器
  9. Android基础之RelativeLayout布局
  10. SAP IDoc ALE和EDI有什么区别和联系