泰坦尼克号-数据加载及探索性数据分析
数据加载及探索性数据分析
这部分内容主要分:数据加载、Pandas基础、探索性数据分析。
1.导入numpy、pandas及查看python版本
import pandas as pd
import numpy as np
pd.__version__
2.通过绝对路径写入-读取CSV格式
df = pd.read_csv('data/table.csv')
df.head()
3.逐块读取
chunker = pd.read_csv('C:/Users/Lenovo/Desktop/titanic.csv', chunksize=1000)
通过pandas来处理文件的时候,我们经常会遇到大文件,这时候就需要用到逐块读取。
4.查看数据的基本情况
df.info()
5.观察表格前10行的数据
df.head(10)
6.观察表格后10行的数据
df.tail(10)
7.判断数据是否为空,为空的地方返回True,其余地方返回False
df.isnull().head()
8.保存数据
df.to_csv('C:/Users/Lenovo/Desktop/titanic_new.csv')
9.查看DataFrame数据的每列的项
df.columns
10.查看"cabin"这列的所有项
df['Cabin'].head(5)
11.我们以"Age"为筛选条件,显示年龄在10岁以下的乘客信息。
df[df["Age"]<10].head(5)
12. 以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage
midage = df[(df["Age"]>10)& (df["Age"]<50)]
midage.head(5)
13.将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来
midage = midage.reset_index(drop=True)
midage.head(5)
reset_index()函数是指重置索引后,drop参数默认为False,想要删除原先的索引列要置为True.想要在原数据上修改要inplace=True.特别是不赋值的情况必须要加,否则drop无效。
14.使用loc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
midage.loc[[100,105,108],['Pclass','Name','Sex']]
#因为延长了行的距离,所以会产生表格形式。
15.使用iloc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
midage.iloc[[100,105,108],[2,3,4]]
16.利用Pandas对示例数据进行排序,要求升序
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), index=['2', '1'], columns=['d', 'a', 'b', 'c'])
frame
#pd.DataFrame() :创建一个DataFrame对象
np.arange(8).reshape((2, 4)) : 生成一个二维数组(2*4),第一列:0,1,2,3 第二列:4,5,6,7。
index=['2, 1] :DataFrame 对象的索引列。
columns=[‘d’, ‘a’, ‘b’, ‘c’] :DataFrame 对象的索引行。
17.利用Pandas进行算术计算,计算两个DataFrame数据相加结果
frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),columns=['a', 'b', 'c'],index=['one', 'two', 'three'])
frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),columns=['a', 'e', 'c'],index=['first', 'one', 'two', 'second'])
frame1_a
18.学会使用Pandas describe()函数查看数据基本统计信息
frame2 = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],[np.nan, np.nan], [0.75, -1.3]], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
frame2
泰坦尼克号-数据加载及探索性数据分析相关推荐
- Datawhale7月组队学习task1数据加载及探索性数据分析
Datawhale7月task1数据加载及探索性数据分析 有幸了解到了Datawhale这样一个开源组织,欣然报名了2021年7月的组队学习的动手学数据分析系列课程 本系列目标:完成kaggl ...
- 动手学数据分析(一)- 数据加载及探索性数据分析
1 初心 本系列笔记用于记录自己第一次参加Datawhale的组队学习.自己马上开启研究生学习生涯,因此熟练掌握数据分析这一重要技能对未来的学习能够提供很大的帮助,Datawhale团队在项目初衷里说 ...
- Task01 数据加载及探索性数据分析
文章目录 前言 1. 第一章:数据载入及初步观察 1.1 载入数据 1.1.1 任务一:导入numpy和pandas 1.1.2 任务二:载入数据 1.1.3 任务三:每1000行为一个数据模块,逐块 ...
- 动手学数据分析task01 数据加载及探索性数据分析(笔记)
一.数据载入及初步观察 1. 载入数据 1.1 打开JupyterLab 导入numpy.pandas 1.2 使用绝对路径.相对路径载入数据 首先,使用path1=os.path.abspath(' ...
- 动手学数据分析——Task01_数据加载
前言 这是一门诞生于datawhale的课程,学习它的时候搭配datawhale所配备其他资源会更好,项目地址:https://github.com/datawhalechina/hands-on-d ...
- python数据分析笔记——数据加载与整理
Python数据分析--数据加载与整理 总第47篇 ▼ (本文框架) 数据加载 导入文本数据 1.导入文本格式数据(CSV)的方法: 方法一:使用pd.read_csv(),默认打开csv文件. 9. ...
- 《利用Python进行数据分析·第2版》第6章 数据加载、存储与文件格式
第1章 准备工作 第2章 Python语法基础,IPython和Jupyter 第3章 Python的数据结构.函数和文件 第4章 NumPy基础:数组和矢量计算 第5章 pandas入门 第6章 数 ...
- python录入数据至ppt_利用Python进行数据分析之 数据加载.ppt
利用Python进行数据分析之 数据加载 " " " " 数据加载,存储与文件格式 1,读写文本格式数据: (read_csv,read_table,read_ ...
- 利用Python进行数据分析(四):数据加载、存储与文件格式
标题利用Python进行数据分析(四):数据加载.存储与文件格式 学习笔记来源于:简书https://www.jianshu.com/p/047d8c1c7e14 输入输出通常可以划分为几个大类:读取 ...
最新文章
- jQuery Mobile手机网站案例
- mysql注入漏洞语句_mysql注入sleep语句引发的拒绝服务
- 波兰极客用一张软盘运行Linux系统,用的还是最新内核!
- arp_ignore和arp_announce内核参数
- 计算机网络校园网建设设计摘要,计算机网络专业论文校园网建设设计.doc
- linux 查看整个根目录下各个文件占用情况
- linux怎样用命令提示符,Linux用户必知:一分钟掌握14个常用Linux命令行快捷键
- c# 溢出抛异常_Rust竟然没有异常处理?
- Pycharm最新版本安装教程
- 32利用文件系统保存数据_数据管理技术的产生与发展
- 2018年全国卷Ⅰ卷理科数学图片版
- 羊毛之家,青龙脚本,几乎全部可用
- 2020.11.18 比赛总结题解合集
- grpc流式传输心得
- Nicholas C. Zakas谈怎样才能成为优秀的前端工程师
- 2016-09-01[关于Paint笔触的了解]
- C++:C++编程语言学习之数学运算运算符及其优先级的简介、案例应用之详细攻略
- 马来西亚理科大学计算机专业雅思,马来西亚理科大学本科雅思成绩要求
- 关于Mysql查询时间粒度DATA_FORMAT使用说明
- 微分环节的matlab仿真,典型环节的MATLAB仿真 实验二.doc