Python数据分析笔记——Numpy、Pandas库

Python数据分析——Numpy、Pandas库

总第48篇

▼

利用Python进行数据分析中有两个重要的库是Numpy和Pandas，本章将围绕这两个库进行展开介绍。

Numpy库

Numpy最重要的一个特点是就是其N维数组对象，即ndarray，ndarray是一个通用的同构数据多维容器，其中的所有元素必须是相同类型的。每个数组都有一个shape（一个表示各维度大小的元组，即表示有几行几列）和dtype（一个用于说明数组数据类型的对象）。本节将围绕ndarray数组展开。

Numpy基础

1、创建ndarray数组

使用array函数，它接受一切序列型的对象，包括其他数组，然后产生一个新的Numpy数组。

嵌套序列将会被转换成一个多维数组。

np.array会尝试为每一个新建的数组推断出适合它的数据类型。

arange是Python内置函数range的数组版。

2、数据类型

dtype是一个用来说明数组的数据类型的对象。其命名方式是一个类型名（float和int）后面跟一个用于表示各元素位长的数字。常用的是float64和int32.

也可以使用astype进行数组中数据类型的转化。

3、基本的索引和切片

（1）元素索引、根据元素在数组中的位置来进行索引。

一维数组的索引

多维数组的索引

（2）切片索引

一维数组的切片索引（与Python列表的切片索引一样）

多维数组的切片索引

（3）花式索引

元素索引和切片索引都是仅局限于连续区域的值，而花式索引可以选取特定区域的值。

上述语句选出的是元素（1,0）、（5,3）、（7，1）、（2,2）。

上述语句按0、3、1、2列的顺序依次显示1、5、7、2行。下述语句能实现同样的效果。

Numpy数组的基本运算

1、数组和标量之间的预算

2、元素级数组函数

是指对数组中每个元素执行函数运算。下面例子是对数组各元素执行平方根操作。还有abs、exp、sin、cos、log、sum、mean（算术平均数）、cumsum(所有元素的累计和)、cumprod(所有元素的累计积)、sort（将元素进行排序）等函数。

Pandas库

Pandas数据结构

1、Series

（1）概念：

Series是一种类似于一维数组的对象，它由一组数据以及一组与之相关的数据标签（即索引）组成。

（2）创建Series

a、通过series来创建

Series的字符串表现形式为：索引在左边，值在右边。当我们没有为数据指定索引时，Series会自动创建一个0到N-1（N为数据的长度）的整数型索引。可以通过Series的values和index属性获取其数组的值和对应的属性。

也可以在创建Series的时候为值直接创建索引。

b、通过字典的形式来创建Series。

（3）获取Series中的值

通过索引的方式选取Series中的单个或一组值。

2、DataFrame

(1)概念：

DataFrame是一个表格型的数据结构，含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。DataFrame既有行索引也有列索引，其中的数据是以一个或多个二维块存放的，而不是列表、字典或别的一维数据结构。

（2）创建DataFrame：

最常用的一种方法是直接传入一个等长列表或numpy数组组成的字典：

结果DataFrame会自动加上索引（添加方法与Series一样），且全部列会被有序排列。

如果指定了列序列、索引，则DataFrame的列会按指定顺序及索引进行排列。

也可以设置DataFrame的index和columns的name属性，则这些信息也会被显示出来。

（3）获取DataFrame的值（行或列）

通过查找columns值获取对应的列。（下面两种方法）

通过索引字段ix查找相应的行。

（4）对列进行赋值处理。

对某一列可以赋一个标量值也可以是一组值。

也可以给某一列赋值一个列表或数组，其长度必须跟DataFrame长度相匹配。如果赋值的是一个Series，则对应的索引位置将被赋值，其他位置的值被赋予空值。

Pandas基本功能

1、重新索引

Pandas对象的一个方法就是重新索引（reindex）,其作用是创建一个新的索引，pandas对象将按这个新索引进行排序。对于不存在的索引值，引入缺失值。

也可以按columns(行)进行重新索引，对于不存在的列名称，将被填充空值。

对于不存在的索引值带来的缺失值，也可以在重新索引时使用fill_value给缺失值填充指定值。

对于缺失值除使用fill_value的方式填充特定值以外还可以使用method=ffill（向前填充、即后面的缺失值用前面非缺失值填充）、bfill（向后填充，即前面的缺失值用后面的非缺失值填充）。

2、丢弃指定轴上的项

使用drop方法删除指定索引值对应的对象。

可以同时删除多个索引对应的值。

对于DataFrame，可以删除任意轴上（columns）的索引值。

3、算数运算和数据对齐

（1）Series 与Series之间的运算

将不同索引的对象进行算数运算，在将对象进行相加时，如果存在时，则结果的索引就是该索引的并集，而结果的对象为空。

（2）DataFrame与Series之间的运算

将DataFrame的每一行与Series分别进行运算。（索引相同的进行算数运算，索引不同的被赋予空值）

4、排序和排名

根据某种条件对数据集进行排序。

（1）Series数据结构的排序和排名

a、按索引值进行排序

b、按值进行排序

默认情况下，排序是按升序排列的，但也可通过ascending=False进行降序排列。

排名跟排序不同的是，排名会增设一个排名值。obj.rank()

(2)DataFrame数据结构的排序和排名

按索引值进行排列，一列或多列中的值进行排序，通过by将列名传递给sort_index.

5、缺失数据处理

（1）滤出缺失数据

使用data.dropna()可以滤出缺失数据，默认情况下，data.dropna()滤出含有缺失值的所有行（是含有缺失数据的那一整行）。

传入how=‘all’将只滤出全是缺失值的那一行。

要用这种方式滤出列，只需传入axis=1即可。

（2）填充缺失数据

通过调用函数fillna，并给予这个函数一个值，则该数组中所有的缺失值都将被这个值填充。df.fillna(0)——缺失值都将被0填充。

也可以给fillna函数一个字典，就可以实现对不同的列填充不同的值。

Df.fillna({1:0.5,3:-1})——1列的缺失值用0.5填充，3列的缺失值用-1填充。（列从0开始计数）

6、汇总和计算描述统计

就是针对数组进行常用的数学和统计运算。大部分都属于约简和汇总统计。

其中有求和（sum）运算、累计（cumsum）运算、平均值（mean）等运算。这些运算默认都是针对于行的运算，通过使用axis=1进行列的运算。

Describe既不是约简型也不是累计型，他是用于一次性产生多个汇总统计指标的运算。根据数组中数据的类型不同，产生的统计指标不同，有最值、分位数（四分位、四分之三）、标准差、方差等指标。

7、唯一值的获取

此方法可以用于显示去重后的数据。

8、值计数

用于计算一个Series中各值出现的次数。

9、层次化索引

层次化索引是pandas的一个重要功能，它的作用是使你在一个轴上拥有两个或多个索引级别。相当于Excel中vlookup函数的多条件查找中的多条件。

对于层次化索引对象，选取数据的方式可以通过内层索引，也可以通过外层索引来选取，选取方式和单层索引选取的方式一致。

Python数据分析笔记——Numpy、Pandas库相关推荐

python数据分析的钥匙——pandas库
目录系列文章目录一. 关于pandas库: 二. pandas库的安装三. pandas的两种基本数据结构--Series 与 DataFrame(附代码) 四. pandas库的应用(附代码) ...
azw3 python数据分析活用pandas库_Python数据分析活用Pandas库数据科学教程数据分析入门图书 Python编程入门数据处理...
内容介绍本书是Python数据分析入门书,每个概念都通过简单实例来阐述,便于读者理解与上手.具体内容包括:Python及Pandas基础知识,加载和查看数据集,Pandas的DataFrame对象和 ...
python数据分析与展示--Pandas库入门
一.Pandas库的引用 Pandas是python第三方库,通过了高性能易用的数据类型和分析工具;Pandas库包含了Series,DataFrame两个数据类型,基于这两个数据类型可以实现基本,运 ...
python数据分析活用pandas库_Python数据分析:活用Pandas库:Pandas for everyone
序 iv 前言 v 致谢 xi 关于作者 xiv 第一部分简介 1 第 1章 Pandas DataFrame基础知识 2 1.1 简介 2 1.2 加载数据集 3 1.3 查看列.行.单元格 5 ...
python数据分析活用pandas库 pdf_Python数据分析：活用Pandas库
献词 iii 序 iv 前言 v 致谢 xi 关于作者 xiv 第一部分简介 1 第 1章 Pandas DataFrame基础知识 2 1．1 简介 2 1．2 加载数据集 3 1．3 查看列. ...
python提示keyerror 13372,Python 学习笔记之—— Pandas 库
import numpy as np import pandas as pd 1. 基本的数据结构 1.1 Series Series 是一维的标记数组,可以容纳任意数据类型,比如整数.字符串.浮点数 ...
非理工科编程零基础文科生秒懂python学习笔记：pandas库数据表格创建和运算基础有哪些？
#dataframe的数据类型 #每行的数据类型可以不一样 #行索引为index 等同于excel表格最左边的1.2.3.4 #列索引为column 等同于excel表格最顶端的A|B|C|D|E # ...
# Python 数据分析三剑客 numpy / pandas / matplotlib （numpy篇②）
接着上一讲切片是引用切片在内存中使用的是引用机制. 引用机制意味着,Python并没有为b分配新的空间来存储它的值,而是让b指向了a所分配的内存空间,因此,改变b会改变a的值: a = np.ar ...
Python数据分析 3.numpy数据科学库
Python数据分析 3.numpy基础库 1.数组的创建 import numpy as npt1 = np.array([1,2,3,]) print(t1) print(type(t1))t2 ...

Python数据分析笔记——Numpy、Pandas库

Python数据分析笔记——Numpy、Pandas库相关推荐

最新文章

热门文章