泰坦尼克号-数据加载及探索性数据分析

数据加载及探索性数据分析
这部分内容主要分:数据加载、Pandas基础、探索性数据分析。

1.导入numpy、pandas及查看python版本

import pandas as pd
import numpy as np
pd.__version__

2.通过绝对路径写入-读取CSV格式

df = pd.read_csv('data/table.csv')
df.head()

3.逐块读取

chunker = pd.read_csv('C:/Users/Lenovo/Desktop/titanic.csv', chunksize=1000)

通过pandas来处理文件的时候，我们经常会遇到大文件，这时候就需要用到逐块读取。
4.查看数据的基本情况

df.info()

5.观察表格前10行的数据

df.head(10)

6.观察表格后10行的数据

df.tail(10)

7.判断数据是否为空，为空的地方返回True，其余地方返回False

df.isnull().head()

8.保存数据

df.to_csv('C:/Users/Lenovo/Desktop/titanic_new.csv')

9.查看DataFrame数据的每列的项

df.columns

10.查看"cabin"这列的所有项

df['Cabin'].head(5)

11.我们以"Age"为筛选条件，显示年龄在10岁以下的乘客信息。

df[df["Age"]<10].head(5)

12. 以"Age"为条件，将年龄在10岁以上和50岁以下的乘客信息显示出来，并将这个数据命名为midage

midage = df[(df["Age"]>10)& (df["Age"]<50)]
midage.head(5)

13.将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来

midage = midage.reset_index(drop=True)
midage.head(5)

reset_index()函数是指重置索引后,drop参数默认为False,想要删除原先的索引列要置为True.想要在原数据上修改要inplace=True.特别是不赋值的情况必须要加,否则drop无效。
14.使用loc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

midage.loc[[100,105,108],['Pclass','Name','Sex']]

#因为延长了行的距离，所以会产生表格形式。
15.使用iloc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

midage.iloc[[100,105,108],[2,3,4]]

16.利用Pandas对示例数据进行排序，要求升序

frame = pd.DataFrame(np.arange(8).reshape((2, 4)), index=['2', '1'], columns=['d', 'a', 'b', 'c'])
frame

#pd.DataFrame() ：创建一个DataFrame对象
np.arange(8).reshape((2, 4)) : 生成一个二维数组（2*4）,第一列：0，1，2，3 第二列：4，5，6，7。
index=['2, 1] ：DataFrame 对象的索引列。
columns=[‘d’, ‘a’, ‘b’, ‘c’] ：DataFrame 对象的索引行。
17.利用Pandas进行算术计算，计算两个DataFrame数据相加结果

frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),columns=['a', 'b', 'c'],index=['one', 'two', 'three'])
frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),columns=['a', 'e', 'c'],index=['first', 'one', 'two', 'second'])
frame1_a

18.学会使用Pandas describe()函数查看数据基本统计信息

frame2 = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],[np.nan, np.nan], [0.75, -1.3]], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])
frame2

泰坦尼克号-数据加载及探索性数据分析相关推荐

Datawhale7月组队学习task1数据加载及探索性数据分析
Datawhale7月task1数据加载及探索性数据分析有幸了解到了Datawhale这样一个开源组织,欣然报名了2021年7月的组队学习的动手学数据分析系列课程本系列目标:完成kaggl ...
动手学数据分析（一）- 数据加载及探索性数据分析
1 初心本系列笔记用于记录自己第一次参加Datawhale的组队学习.自己马上开启研究生学习生涯,因此熟练掌握数据分析这一重要技能对未来的学习能够提供很大的帮助,Datawhale团队在项目初衷里说 ...
Task01 数据加载及探索性数据分析
文章目录前言 1. 第一章:数据载入及初步观察 1.1 载入数据 1.1.1 任务一:导入numpy和pandas 1.1.2 任务二:载入数据 1.1.3 任务三:每1000行为一个数据模块,逐块 ...
动手学数据分析task01 数据加载及探索性数据分析（笔记）
一.数据载入及初步观察 1. 载入数据 1.1 打开JupyterLab 导入numpy.pandas 1.2 使用绝对路径.相对路径载入数据首先,使用path1=os.path.abspath(' ...
动手学数据分析——Task01_数据加载
前言这是一门诞生于datawhale的课程,学习它的时候搭配datawhale所配备其他资源会更好,项目地址:https://github.com/datawhalechina/hands-on-d ...
python数据分析笔记——数据加载与整理
Python数据分析--数据加载与整理总第47篇 ▼ (本文框架) 数据加载导入文本数据 1.导入文本格式数据(CSV)的方法: 方法一:使用pd.read_csv(),默认打开csv文件. 9. ...
《利用Python进行数据分析·第2版》第6章数据加载、存储与文件格式
第1章准备工作第2章 Python语法基础,IPython和Jupyter 第3章 Python的数据结构.函数和文件第4章 NumPy基础:数组和矢量计算第5章 pandas入门第6章数 ...
python录入数据至ppt_利用Python进行数据分析之数据加载.ppt
利用Python进行数据分析之数据加载 " " " " 数据加载,存储与文件格式 1,读写文本格式数据: (read_csv,read_table,read_ ...
利用Python进行数据分析（四）：数据加载、存储与文件格式
标题利用Python进行数据分析(四):数据加载.存储与文件格式学习笔记来源于:简书https://www.jianshu.com/p/047d8c1c7e14 输入输出通常可以划分为几个大类:读取 ...

泰坦尼克号-数据加载及探索性数据分析

泰坦尼克号-数据加载及探索性数据分析相关推荐

最新文章

热门文章