动手学数据分析 第一章之探索性数据分析
要不今天开篇先吐槽一下工作,一句话——底层数据乱得我不想说话。今天一天很平静,跟昨天很像,下面是给我自己说的。。。关键是我们做的东西是服务于我们自己的,难道不应该是我们想看什么,顺便给某人看一下什么数据,毕竟某人其实一点儿也不关心这个东西。像绕口令一样,其实别人怎么样跟我确实没有关系,可是如果明明不在一个频道上,说得东西又说不到点子上,还想左右我做的事情,这样也和我没有关系吗?不清楚。
前两天的文章给人一种混乱,开头不知所云的感觉。因为都是我边看任务边做题边百度给写出来的,开始的时候我也不知道我会遇到哪些任务。今天改变战略,我先把任务看一遍,简单地总结一下,接着就是开始陈述做题过程中所遇到的各种问题及解决方法。
本篇的探索性分析主要介绍三部分的内容:
1、利用pandas对DataFrame进行排序操作;
2、对DataFrame和DataFrame进行加操作,或者对DataFrame中的某些列进行加操作
3、对DataFrame进行描述性统计分析就是方法describe().
其实整个第一章是一个大家庭,我呢,因为时间不太充裕,毕竟我是个妥妥的社畜,加班是常犯。整个第一章完成下来,会对数据有个初步的认识,了解自己在做什么,知道为什么这么做。为后续章节的学习提供基础。
第一部分讲得是排序,分为对行索引、列索引及列数据的排序,我也是第一次看到可以对列索引排序。扶额。其实稍微转换一下思路是可以理解的,毕竟DataFrame是以表格的形式展示的,转置一下,列索引自然而然就会称为行索引。
对索引的排序用sort_index,参数axis默认为0,即默认对行索引排序;参数ascending默认为True,即默认升序。延申一下axis=1指的是对列索引排序,ascending=False指的是降序排列。
对列数据的排序用的是sort_values()方法。
拿Tatanic的数据来看一下,针对票价和年龄同时倒序排序,会发现几个有意思的现象。
1、高票价是中票价的两倍左;
2、购买高票价的集中在中青年;
3、高票价的生存率比较高;
这些都是根据看到的部分数据得出来了,相当于还没有真正分析前的假设。
第二部分是利用pandas进行算术运算,类似于我们平常见到的加减乘除。对应的行和列会进行相应的运算,如果没有相应的值的话,就会出现NAN。
这部分的任务还提到了如何利用算术运算,计算tatanic最大家族的人数:
我筛选了一下最大家族对应的数据信息,显示每一行都显示着,这个人有8个兄弟姐妹,2个父母和小孩子,就是10个人,但我看到的行数只有7条。所以我比较好奇tatanic的这个数据构成逻辑,因为从列名来看,每行对应的是一个人的信息。
1、这些人票都是一样的;
2、这些人最后都没存活下来;
3、有可能是因为拆分数据集的时候,把这一大家族人的数据分拆到两个数据集里面了。如果按训练集:测试集 = 7:3,感觉假设很合理。
第三部分就是运用decribe() 来查看数据的信息了,对于这个方法特别注意的就是缺失值,对于缺失值的信息并不会体现在其中,因为不对缺失值进行计算。
用describe()对titanic的票价和人数,可以看到人数的最小值为0。票价的分布也是很有意思,75%的人票价都在32美元以下。
OK,完成了。
动手学数据分析 第一章之探索性数据分析相关推荐
- 【TL第二期】动手学数据分析-第一章 数据基本操作
文章目录 第一章 第一节 数据载入与初步观察 0 导库 1 载入数据 2 查看数据基本信息 第二节 pandas基础 1 数据类型DataFrame 和 Series 2 对文件数据的基本操作 3 数 ...
- Datawhale---动手学数据分析---第一章:数据载入及初步观察(泰坦尼克的任务)
1.1 载入数据 数据集下载 Titanic - Machine Learning from Disaster | Kaggle 1.1.1 任务一:导入numpy和pandas import num ...
- 跟着开涛学SpringMVC 第一章源代码下载
2019独角兽企业重金招聘Python工程师标准>>> 源代码请到附件中下载. 其他下载: 跟着开涛学SpringMVC 第一章源代码下载 第二章 Spring MVC入门 源代码下 ...
- 趣学PYTHON 第一章python不是大蟒蛇
趣学PYTHON 第一章python不是大蟒蛇 把我自己的学习记录在这里,留下一片回忆. Python 2.7.14 (v2.7.14:84471935ed, Sep 16 2017, 20:19:3 ...
- 动手学习数据分析第一章内容
所想:所有的内容都是新的,之前没有接触过Markdown等内容,因此不清楚如何编辑文档,不知道如何将编辑的文档上传到网站上,一步一步来,总会有收获的,每天打卡也算是给自己一个鞭策,有点压力,尽量完成, ...
- 数据分析第一章:第一节至第三节
前言:datawhale团队贡献的课程--<动手学数据分析>,这门课程得主要目的是通过真实的数据,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作.完成kaggle上泰坦 ...
- 数据分析-第一章:数据载入及初步观察
复习: 这门课程得主要目的是通过真实的数据,以实战的方式了解数据分析的流程和熟悉数据分析python的基本操作.知道了课程的目的之后,我们接下来我们要正式的开始数据分析的实战教学,完成kaggle上泰 ...
- Python数据分析 第一章 数据分析的概述
目录 第一章 数据分析的概述 1.数据分析的概述 1.Python在数据分析方面的优势 2.数据分析流程 3.数据分析层次 4.数据分析常见应用场景 2. Python数据分析模块 1. Numpy ...
- Datawhale数据分析第一章第二节:Pandas基础
复习:数据分析的第一步,加载数据我们已经学习完毕了.当数据展现在我们面前的时候,我们所要做的第一步就是认识他,今天我们要学习的就是了解字段含义以及初步观察数据. 1 第一章:数据载入及初步观察 1.4 ...
最新文章
- LeetCode简单题之截断句子
- [k8s] 第九章 安全认证
- available scholarships Cambridge
- linux驱动模块开机自动加载,以及应用程序开机自启动
- 5招详解linux之openEuler /centos7防火墙基本使用指南
- Easyui 弹出加载中的遮罩的两种方法
- T61|NV显卡门|根据售后维修部数据显示爆发期来临|预防显卡门|解决显卡门
- efi分区咋移动到c盘里_efi系统分区是什么?重装系统EFI系统分区图文教程
- WSO2学习笔记(一)
- char * 与char []区别总结
- Unity 获取Android手机返回键Home按键信息
- 四句话改变你的人生:一念之转
- MarkdownPad 使用 MathJax
- matlab stem函数坐标轴_MATLAB中stem函数用法
- 在Facebook广告投放时需要注意这些问题
- asp版微信公众号支付(包含源代码)
- 领跑IT运维 广通COSS 3.0新品上线
- 学习的一些好网站(涨姿势的)
- 数据埋点|六个步骤实现数据埋点方案设计
- 关于对《弹道导弹攻防对抗的建模与仿真》一书中部分章节模型的Python复现