要不今天开篇先吐槽一下工作,一句话——底层数据乱得我不想说话。今天一天很平静,跟昨天很像,下面是给我自己说的。。。关键是我们做的东西是服务于我们自己的,难道不应该是我们想看什么,顺便给某人看一下什么数据,毕竟某人其实一点儿也不关心这个东西。像绕口令一样,其实别人怎么样跟我确实没有关系,可是如果明明不在一个频道上,说得东西又说不到点子上,还想左右我做的事情,这样也和我没有关系吗?不清楚。

前两天的文章给人一种混乱,开头不知所云的感觉。因为都是我边看任务边做题边百度给写出来的,开始的时候我也不知道我会遇到哪些任务。今天改变战略,我先把任务看一遍,简单地总结一下,接着就是开始陈述做题过程中所遇到的各种问题及解决方法。

本篇的探索性分析主要介绍三部分的内容:

1、利用pandas对DataFrame进行排序操作;

2、对DataFrame和DataFrame进行加操作,或者对DataFrame中的某些列进行加操作

3、对DataFrame进行描述性统计分析就是方法describe().

其实整个第一章是一个大家庭,我呢,因为时间不太充裕,毕竟我是个妥妥的社畜,加班是常犯。整个第一章完成下来,会对数据有个初步的认识,了解自己在做什么,知道为什么这么做。为后续章节的学习提供基础。

第一部分讲得是排序,分为对行索引、列索引及列数据的排序,我也是第一次看到可以对列索引排序。扶额。其实稍微转换一下思路是可以理解的,毕竟DataFrame是以表格的形式展示的,转置一下,列索引自然而然就会称为行索引。

对索引的排序用sort_index,参数axis默认为0,即默认对行索引排序;参数ascending默认为True,即默认升序。延申一下axis=1指的是对列索引排序,ascending=False指的是降序排列。

对列数据的排序用的是sort_values()方法。

拿Tatanic的数据来看一下,针对票价和年龄同时倒序排序,会发现几个有意思的现象。

1、高票价是中票价的两倍左;

2、购买高票价的集中在中青年;

3、高票价的生存率比较高;

这些都是根据看到的部分数据得出来了,相当于还没有真正分析前的假设。

第二部分是利用pandas进行算术运算,类似于我们平常见到的加减乘除。对应的行和列会进行相应的运算,如果没有相应的值的话,就会出现NAN。

这部分的任务还提到了如何利用算术运算,计算tatanic最大家族的人数:

我筛选了一下最大家族对应的数据信息,显示每一行都显示着,这个人有8个兄弟姐妹,2个父母和小孩子,就是10个人,但我看到的行数只有7条。所以我比较好奇tatanic的这个数据构成逻辑,因为从列名来看,每行对应的是一个人的信息。

1、这些人票都是一样的;

2、这些人最后都没存活下来;

3、有可能是因为拆分数据集的时候,把这一大家族人的数据分拆到两个数据集里面了。如果按训练集:测试集 = 7:3,感觉假设很合理。

第三部分就是运用decribe() 来查看数据的信息了,对于这个方法特别注意的就是缺失值,对于缺失值的信息并不会体现在其中,因为不对缺失值进行计算。

用describe()对titanic的票价和人数,可以看到人数的最小值为0。票价的分布也是很有意思,75%的人票价都在32美元以下。

OK,完成了。

动手学数据分析 第一章之探索性数据分析相关推荐

  1. 【TL第二期】动手学数据分析-第一章 数据基本操作

    文章目录 第一章 第一节 数据载入与初步观察 0 导库 1 载入数据 2 查看数据基本信息 第二节 pandas基础 1 数据类型DataFrame 和 Series 2 对文件数据的基本操作 3 数 ...

  2. Datawhale---动手学数据分析---第一章:数据载入及初步观察(泰坦尼克的任务)

    1.1 载入数据 数据集下载 Titanic - Machine Learning from Disaster | Kaggle 1.1.1 任务一:导入numpy和pandas import num ...

  3. 跟着开涛学SpringMVC 第一章源代码下载

    2019独角兽企业重金招聘Python工程师标准>>> 源代码请到附件中下载. 其他下载: 跟着开涛学SpringMVC 第一章源代码下载 第二章 Spring MVC入门 源代码下 ...

  4. 趣学PYTHON 第一章python不是大蟒蛇

    趣学PYTHON 第一章python不是大蟒蛇 把我自己的学习记录在这里,留下一片回忆. Python 2.7.14 (v2.7.14:84471935ed, Sep 16 2017, 20:19:3 ...

  5. 动手学习数据分析第一章内容

    所想:所有的内容都是新的,之前没有接触过Markdown等内容,因此不清楚如何编辑文档,不知道如何将编辑的文档上传到网站上,一步一步来,总会有收获的,每天打卡也算是给自己一个鞭策,有点压力,尽量完成, ...

  6. 数据分析第一章:第一节至第三节

    前言:datawhale团队贡献的课程--<动手学数据分析>,这门课程得主要目的是通过真实的数据,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作.完成kaggle上泰坦 ...

  7. 数据分析-第一章:数据载入及初步观察

    复习: 这门课程得主要目的是通过真实的数据,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作.知道了课程的目的之后,我们接下来我们要正式的开始数据分析的实战教学,完成kaggle上泰 ...

  8. Python数据分析 第一章 数据分析的概述

    目录 第一章 数据分析的概述 1.数据分析的概述 1.Python在数据分析方面的优势 2.数据分析流程 3.数据分析层次 4.数据分析常见应用场景 2. Python数据分析模块 1. Numpy ...

  9. Datawhale数据分析第一章第二节:Pandas基础

    复习:数据分析的第一步,加载数据我们已经学习完毕了.当数据展现在我们面前的时候,我们所要做的第一步就是认识他,今天我们要学习的就是了解字段含义以及初步观察数据. 1 第一章:数据载入及初步观察 1.4 ...

最新文章

  1. LeetCode简单题之截断句子
  2. [k8s] 第九章 安全认证
  3. available scholarships Cambridge
  4. linux驱动模块开机自动加载,以及应用程序开机自启动
  5. 5招详解linux之openEuler /centos7防火墙基本使用指南
  6. Easyui 弹出加载中的遮罩的两种方法
  7. T61|NV显卡门|根据售后维修部数据显示爆发期来临|预防显卡门|解决显卡门
  8. efi分区咋移动到c盘里_efi系统分区是什么?重装系统EFI系统分区图文教程
  9. WSO2学习笔记(一)
  10. char * 与char []区别总结
  11. Unity 获取Android手机返回键Home按键信息
  12. 四句话改变你的人生:一念之转
  13. MarkdownPad 使用 MathJax
  14. matlab stem函数坐标轴_MATLAB中stem函数用法
  15. 在Facebook广告投放时需要注意这些问题
  16. asp版微信公众号支付(包含源代码)
  17. 领跑IT运维 广通COSS 3.0新品上线
  18. 学习的一些好网站(涨姿势的)
  19. 数据埋点|六个步骤实现数据埋点方案设计
  20. 关于对《弹道导弹攻防对抗的建模与仿真》一书中部分章节模型的Python复现

热门文章

  1. 2018年蓝桥杯总结
  2. 用VHDL编写数字时钟
  3. lisp 套料_CAD自动编号插件下载
  4. PostgreSQL中的两阶段提交
  5. 常见APP攻击方法 以及防御方法介绍(移动安全)
  6. Windows 10 升与不升之我见
  7. Ubuntu-Thinkpade14无线网卡驱动安装
  8. 已注册的 FOURCC 代码和 WAVE 格式
  9. opencv保存图片路径包含中文乱码解决方案
  10. 质检报告的含义与意义