Pandas 对象拥有一组常用的数学和统计方法,他们大部分都属于约简和汇总统计,用于从 Series 中提取单个值(如 sum/mean),或者从 DataFrame 的行或列中提取一个 Series。

In [144]: df = DataFrame([[1,np.nan],[2,3],[np.nan,np.nan],[0,2]],...: index=['a','b','c','d'],columns=['one','two'])In [145]: df
Out[145]: one  two
a  1.0  NaN
b  2.0  3.0
c  NaN  NaN
d  0.0  2.0
# sum 方法返回一个含有列小计的 Series
In [146]: df.sum()
Out[146]:
one    3.0
two    5.0
dtype: float64
# axis 将会按行进行求和运算,NA 值会自动被排除
In [147]: df.sum(axis=1)
Out[147]:
a    1.0
b    5.0
c    0.0
d    2.0
dtype: float64
# 通过 skipna 参数可以禁用 NA 值参与计算
In [151]: df.sum(axis=1,skipna=False)
Out[151]:
a    NaN
b    5.0
c    NaN
d    2.0
dtype: float64

# idxmax、idxmin 返回的是间接统计(比如达到最小值或最大值的索引)
In [153]: df.idxmax()
Out[153]:
one    b
two    b
dtype: object
# cumsum 则是累计型的
In [154]: df.cumsum()
Out[154]: one  two
a  1.0  NaN
b  3.0  3.0
c  NaN  NaN
d  3.0  5.0

describe 用于一次性产生多个汇总统计:

In [155]: df.describe()
Out[155]: one       two
count  3.0  2.000000
mean   1.0  2.500000
std    1.0  0.707107
min    0.0  2.000000
25%    0.5  2.250000
50%    1.0  2.500000
75%    1.5  2.750000
max    2.0  3.000000

  1. 相关系数与协方差

    P156

  2. 唯一值、值计数以及成员资格

    从一维 Series 中提取不重复的值时,可以使用 unique 函数:

    In [156]: obj = Series(['c','a','d','a','a','b','b','c','c'])In [157]: obj.unique()
    Out[157]: array(['c', 'a', 'd', 'b'], dtype=object)
    

    value_counts 用于计算一个 Series 中各值出现的频率:

    In [160]: obj.value_counts()
    Out[160]:
    c    3
    a    3
    b    2
    d    1
    dtype: int64
    # 顶级 pandas 方法,可用于任何数组或序列
    In [162]: pd.value_counts(obj.values, sort=False)
    Out[162]:
    a    3
    c    3
    b    2
    d    1
    dtype: int64
    

    isin 用于判断矢量化集合的成员资格,可用于选取 Series 中或 DataFrame 列中数据的子集:

    obj
    Out[163]:
    0    c
    1    a
    2    d
    3    a
    4    a
    5    b
    6    b
    7    c
    8    c
    dtype: objectobj.isin(['c','b'])
    Out[164]:
    0     True
    1    False
    2    False
    3    False
    4    False
    5     True
    6     True
    7     True
    8     True
    dtype: boolIn [166]: mask = obj.isin(['c','b'])In [167]: obj[mask]
    Out[167]:
    0    c
    5    b
    6    b
    7    c
    8    c
    dtype: object
    

Pandas 基础 (4)—— 汇总和计算描述统计相关推荐

  1. pandas知识点(汇总和计算描述统计)

    调用DataFrame的sum方法会返还一个含有列的Series: In [5]: df = DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0 ...

  2. python数据分析pandas_Python数据分析之 pandas汇总和计算描述统计

    1. 聚合计算 pandas对象拥有一组常用的数学和统计方法.它们大部分都属于约简和汇总 统计,用于从Series中提取单个值(如sum或mean)或从DataFrame的行或 列中提取一个Serie ...

  3. 【Pandas】Pandas基础知识汇总

    提示:该篇文章为自学笔记,bilibili学习视频出处bv: BV1UJ411A7Fs 1. Pandas作用 用于数据分析.数据处理和数据可视化. 2. Pandas数据读取 数据类型 说明 读取方 ...

  4. 【Python】Pandas基础:结构化数据处理

    python:Pandas基础:结构化数据处理 目录: 文章目录 @[toc] 一 pandas及其重要性 二 pandas的数据结构介绍 1 Series 2 DataFrame 3 索引对象 三 ...

  5. 数据载入、Pandas基础和探索性数据分析

    1. 载入数据及初步观察 1.1 载入数据 数据集下载 https://www.kaggle.com/c/titanic/overview 1.1.1 导入numpy和pandas import nu ...

  6. pandas plot label_数据科学| 手把手教你用 pandas 索引、汇总、处理缺失数据

    作者:Paul 编者按: pandas提供了很多常用的数学和统计方法,本文中将用十分详细的例子来具体进行介绍:另外在许多数据分析工作中,缺失数据是经常发生的,将会具体介绍如何处理缺失数据.本文十分详细 ...

  7. 字段缺失_数据科学| 手把手教你用 pandas 索引、汇总、处理缺失数据

    作者:Paul 编者按: pandas提供了很多常用的数学和统计方法,本文中将用十分详细的例子来具体进行介绍:另外在许多数据分析工作中,缺失数据是经常发生的,将会具体介绍如何处理缺失数据.本文十分详细 ...

  8. Python科学计算之Pandas基础学习

    Python科学计算之Pandas基础学习 导入Pandas 我们首先要导入我们的演出明星--Pandas. 这是导入Pandas的标准方式.显然,我们不希望每时每刻都在程序中写'pandas',但是 ...

  9. pandas pivot 计算占比_数据分析Pandas 基础(二)

    推荐阅读:数据分析--Pandas 基础(一) 上一节课介绍了 Pandas 的基本用法,这一章节我们通过对 "泰坦尼克号" 幸存者进行数据分析,来进一步的学习 pandas. t ...

最新文章

  1. padding 不占宽高_不占地方的复式楼室内电梯,极致微型,节电省力颜值高
  2. 高级java知识结构图,Spring高级框架课程笔记 PDF 下载
  3. 2008一打开项目就闪退_UE4[C++]项目编译相关的坑
  4. C 简单瞎搞题(牛客练习赛22)(bitset优化dp)
  5. WeWork通过向225,000个社区征税来拼命地从Meetup.com榨取现金
  6. java 幽灵引用_Java 幽灵引用的作用
  7. 今天,公司架构师跟我分享多年的私货 | 进阶之路必读书籍(附下载链接)
  8. 【高并发】java中的线程池 ThreadPoolExecutor
  9. 荣耀note10升级android9.0,荣耀Note 10成为办公“超神”利器,只需要升级EMUI 9.0就够了!...
  10. 初学JAVA随记——代码练习(二元一次方程)
  11. 辞职前一定要三思的八个问题
  12. java中数组的返回值是什么类型_面试必问:Java中String类型为什么设计成不可变的?...
  13. 单例模式与线程安全问题浅析
  14. Q129:PBRT-V3,均匀介质的采样(15.2.1章节)
  15. 那些互联网IT岗位的招聘潜台词,能看到说明你是历经磨难的老司机
  16. VS2017离线下载 -- 如何让VS2017不占用C盘
  17. win10系统时间与服务器同步报错,图文介绍win10系统电脑时间同步出错的解决技巧...
  18. MVC已过时,MOVE时代来临?
  19. 关于Linux的rear命令
  20. 快手基于 Flink 构建实时数仓场景化实践

热门文章

  1. 2022-2028年中国演出市场深度调研与投资可行性报告
  2. 【Linux系统】基础总结
  3. centos7安装JDK1.7
  4. RPC远程调用通俗理解
  5. Google Colab 免费GPU服务器使用教程 挂载云端硬盘
  6. LeetCode简单题之反转字符串
  7. llvm常见问题 (FAQ)
  8. Rust和C / C ++的跨语言链接时间优化LTO
  9. 新十年嵌入式音频的五大趋势
  10. Linux内存技术分析(上)