python pandas常用函数_python:pandas常用功能函数操作

一、安装pandas

创建虚拟环境：

#创建虚拟环境

mkvirtualenv -p python3 pandas_env

#进入虚拟环境

workon pandas_env

安装pandas

# 1、安装包

$ pip install pandas

测试

# 2、进入python的交互式界面

$ python -i

# 3、使用Pandas

>>> import pandas as pd

>>> df = pd.DataFrame()

>>> print(df)

# 4、输出结果

Empty DataFrame

Columns: []

Index: []

安装处理excel的xlrd

pip install xlrd

使用pandas读取excel并打印

from pandas import pandas as pd

df = pd.read_excel("C:/Users/zixuan/Desktop/test.xlsx")

print(df)

输出：

name age class sex

0 wzx 25 c g

1 lzq 24 c m

2 jjj 5 c m

excel内容如下：

二、数据结构

pandas的数据结构分为两种： Series(一维数据)与 DataFrame(二维数据)。

维数

名称

描述

Series

带标签的一维同构数组

DataFrame

带标签的，大小可变的，二维异构表格

Pandas 数据结构就像是低维数据的容器。比如，DataFrame 是 Series 的容器，Series 则是标量的容器。使用这种方式，可以在容器中以字典的形式插入或删除对象。

1.DataFrame

在DataFrame中，index是行，columns是列。如上面的例子中，pandas会将第一行的数据当作表头，即列名。从第二行开始，以0为起始，作为DF的行。

DataFrame 的每一列都是一个Series。如：

for col in df.columns:

series = df[col]

print(series)

输出：

0 wzx

1 lzq

2 jjj

Name: name, dtype: object

0 25

1 24

2 5

Name: age, dtype: int64

0 c

1 c

2 c

Name: class, dtype: object

0 g

1 m

2 m

Name: sex, dtype: object

Pandas 所有数据结构的值都是可变的，但数据结构的大小并非都是可变的，比如，Series 的长度不可改变，但 DataFrame 里就可以插入列。

Pandas 里，绝大多数方法都不改变原始的输入数据，而是复制数据，生成新的对象。一般来说，原始输入数据不变更稳妥。

三、DF的操作

一、属性

1.将df转换成数组

df.values

输出：

[['wzx' 25 'c' 'g']

['lzq' 24 'c' 'm']

['jjj' 5 'c' 'm']]

2.查看所有列名

for col in df.columns:

print(col)

输出：

name

age

class

sex

3.查看所有索引

for index in df.index:

print(index)

输出:

4.查看df的形状

df.shape

输出：

(3, 4)

#三行四列，在excel中是四行四列，但第一行在pandas中被视为表头

5.查看df的大小

df.size

输出：

#即一共有12个单元格

6.查看每列的数据类型

df.dtypes

输出：

name object

age int64

class object

sex object

dtype: object

二、行列操作和切片

1.指定某一列作为索引

#将第一列name设置为索引

df.set_index('name',inplace=True)

print(df.index)

输出：

Index(['wzx', 'lzq', 'jjj'], dtype='object', name='name')

2.取指定列的数据

#查看age列

df['age']

#或

df.age

输出：

name

wzx 25

lzq 24

jjj 5

Name: age, dtype: int64

3.取指定行数据(使用loc)

#取索引为wzx的行

df.loc['wzx']

输出：

age 25

class c

sex g

Name: wzx, dtype: object

#取多行数据(索引为wzx lzq)，可将多个索引以列表方式传入

df.loc[['wzx','lzq']]

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

4.取指定行的指定列的数据(即某单元格的数据)

#取索引为wzx的age

df.loc['wzx','age']

输出：

#取索引为wzx lzq的age class

df.loc[['wzx','lzq'],['age','class']]

输出：

age class

name

wzx 25 c

lzq 24 c

注意：loc可传入两个参数，第一个参数作为索引，第二个参数作为列名。如果不传第二个参数，则默认取所有列。

如：

取某个索引的某个列的例子中，字符串'wzx'作为第一个参数，字符串'age'作为第二个参数。

取多个索引的多个列的例子中，数组['wzx','lzq']作为第一个参数，数组['age','class']作为第二个参数。

5.行切片

#取wzx开始到jjj结束的所有行

df.loc['wzx':'jjj']

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

6.列切片

#取age开始到sex结束的所有列

for col in df['age':'sex']:

series = df[col]

print(series)

print(col)

输出：

name

wzx 25

lzq 24

jjj 5

Name: age, dtype: int64

age

name

wzx c

lzq c

jjj c

Name: class, dtype: object

class

name

wzx g

lzq m

jjj m

Name: sex, dtype: object

sex

7.按行号取行

#取第0行和第2行数据

df.iloc[[0,2]]

输出：

age class sex

name

wzx 25 c g

jjj 5 c m

#从第0行起，取3行数据

df.iloc[0:3]

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

#取从第0行起，取3行数据的第1、2列

df.iloc[0:3,[1,2]]

输出：

class sex

name

wzx c g

lzq c m

jjj c m

8.转换成数组后取数据

#转换成数组，取数组中第0行第0列数据

df.values[0,0]

输出:

9.运算取索引

#取符合条件的索引(age=24的索引)

df.age==24

输出;

name

wzx False

lzq True

jjj False

Name: age, dtype: bool

#取符合条件的索引的所有数据

df[df.age==24]

输出：

age class sex

name

lzq 24 c m

10.对某列判空

#判断某列是否全为空

df['age'].isnull().all()

#判断某列是否含有空值

df['age'].isnull().any()

三、数据修改

1.修改某单元格的值

#将索引为wzx行的age修改为18

df.loc["wzx","age"] = 18

print(df.loc["wzx"])

输出：

age 18

class c

sex g

Name: wzx, dtype: object

2.添加一列

#1.创建Series，传入一个列表表示这列的值，还可以指定索引，列表的长度需要等于索引个数

s1 = pd.Series([1, 2, 3],index=df.index)

print(s1)

输出：

name

wzx 1

lzq 2

jjj 3

dtype: int64

#2.插入df，即指定df的某列为这个Series，如这个Series为df的id列

df["id"]=s1

print(df)

输出：

age class sex id

name

wzx 25 c g 1

lzq 24 c m 2

jjj 5 c m 3

3.添加一行

方法一：插入Series

#1.创建Series，传入一个列表表示这列的值，还可以指定索引，列表的长度需要等于索引个数

#创建Series可使用name参数指定Series的索引，如果不指定，也可以在插入df时指定

s1 = pd.Series([1, "c","m"],df.columns)

print(s1)

输出：

age 1

class c

sex m

dtype: object

#2.插入df，此时指定索引为xiaoxiao

df.loc["xiaoxiao"] = s1

print(df)

输出：

age class sex id

name

wzx 25 c g 1

lzq 24 c m 2

jjj 5 c m 3

方法二:使用append方法插入

#1.创建Series，传入一个列表表示这列的值，还可以指定索引，列表的长度需要等于索引个数

#创建Series使用name参数指定索引，如果指定了name，则在调用append方法时，则不能忽略索引，即ignore_index=False

s1 = pd.Series([1, "c","m"],index=["age","class","sex"],name="xiaoxiao")

df = df.append(s1,ignore_index=False)

print(df)

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

xiaoxiao 1 c m

四、合并

1.concat垂直合并两个df

类似sql中的union all，但是两个df的结构(字段数量)可以不一致。如：

#1.创建两个相同的df

df1 = pd.read_excel(fileName , sheet_name=sheetName)

df2 = pd.read_excel(fileName , sheet_name=sheetName)

df1.set_index('name',inplace=True)

df2.set_index('name',inplace=True)

两个df内容相同：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

#给df1添加一列

s1 = pd.Series([1, 2, 3],index=df.index)

df1["id"]=s1

#合并df1和df2

df = pd.concat([df1,df2])

print(df)

输出：

age class sex id

name

wzx 25 c g 1.0

lzq 24 c m 2.0

jjj 5 c m 3.0

wzx 25 c g NaN

lzq 24 c m NaN

jjj 5 c m NaN

2.concat水平合并两个df

水平合并只需要在调用concat时指定axis=1即可。相当于sql的join，会将索引一致的数据合并在一起。

如df2中没有索引为xiaoxiao的数据，则合并后，索引xiaoxiao的那行数据只有df1的值。

同样创建两个内容相同的df：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

#给df1添加一行

s1 = pd.Series([1, "c","m"],index=["age","class","sex"],name="xiaoxiao")

df1 = df1.append(s1,ignore_index=False)

输出：

age class sex

name

wzx 25 c g

lzq 24 c m

jjj 5 c m

xiaoxiao 1 c m

#水平合并

df = pd.concat([df1,df2],axis=1)

print(df)

输出：

age class sex age class sex

wzx 25 c g 25.0 c g

lzq 24 c m 24.0 c m

jjj 5 c m 5.0 c m

xiaoxiao 1 c m NaN NaN NaN

3.使用merge合并

merge合并时，也类似于sql的join。并且可以指定join方式，要睡觉不写了。。。具体参考官网：df的merge

本文地址：https://blog.csdn.net/x950913/article/details/108716122

如您对本文有疑问或者有任何想说的，请点击进行留言回复，万千网友为您解惑！

python pandas常用函数_python:pandas常用功能函数操作相关推荐

python所有模块图解_Python pandas模块21个常用操作可视化图解
Pandas 是 Python 的核心数据分析支持库,提供了快速.灵活.明确的数据结构,旨在简单.直观地处理关系型.标记型数据.Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工 ...
python 正则 replace函数_python pandas中的str对象的replace函数
网页链接mp.weixin.qq.com replace函数本身并不复杂,但由于该函数和正则表达式结合会使其作用更加灵活,该函数的主要作用是根据特定的表达式匹配字符串找到后并按照给定的字符或者函数进 ...
python agg函数_Python Pandas Series.agg()用法及代码示例
Python是进行数据分析的一种出色语言,主要是因为以数据为中心的python软件包具有奇妙的生态系统. Pandas是其中的一种,使导入和分析数据更加容易. Pandas Series.agg()用 ...
python datetime timedelta函数_Python Pandas DatetimeIndex.to_perioddelta()用法及代码示例
Python是进行数据分析的一种出色语言,主要是因为以数据为中心的python软件包具有奇妙的生态系统. Pandas是其中的一种,使导入和分析数据更加容易. Pandas DatetimeIndex ...
python offset函数_Python Pandas tseries.offsets.BusinessHour.copy用法及代码示例
Dateoffsets是用于Pandas中日期范围的标准日期增量.就我们传入的关键字args而言,它的工作方式与relativedelta完全相同.DateOffets的工作方式如下,每个偏移量指定一 ...
python 股票分析常用库_Python数据分析常用库有哪些?Python学习！
Python为什么受欢迎?因为Python简单.易懂.好用,是一门高级的编程语言;除此之外,Python提供了大量的第三方库,开箱即用,方便.免费,非常适合从事数据分析领域的工作. 大家也都知道,Py ...
python panda是什么_python pandas浅析
之前一直想自学一下大数据,正好七月在线在做1元优惠购活动,所以机缘巧合开始学习,今天就对最近学习的pandas进行一个笔记梳理,以便后续回顾.本次课程主要学习了以下内容: 一. 简介 pandas 是 ...
python自动化测试常用库_Python自动化测试常用库整理
今天花了一些时间,过了一下这几年自己用Python开发的自动化测试框架,然后将其中常用到Python库抽出来,简单整理了一下它们的用处.我觉得,只要掌握了这些常用的Python库,足以应对大多数自动化 ...
python中pandas什么意思_python pandas 基础理解
其实每一篇博客我都要用很多琐碎的时间片段来学完写完,每次一点点,用到了就学一点,学一点就记录一点,要用上好几天甚至一两个礼拜才感觉某一小类的知识结构学的差不多了. Pandas 是基于 NumPy 的 ...
python pandas excel 排序_Python pandas对excel的操作实现示例
最近经常看到各平台里都有Python的广告,都是对excel的操作,这里明哥收集整理了一下pandas对excel的操作方法和使用过程.本篇介绍 pandas 的 DataFrame 对列 (Colu ...

python pandas常用函数_python:pandas常用功能函数操作

python pandas常用函数_python:pandas常用功能函数操作相关推荐

最新文章

热门文章