文章目录

  • 聚合统计
    • 1.数据聚合
      • 1)内置聚合函数
      • 2)自定义聚合函数agg
      • 3)一次性应用多个聚合函数
      • 4)给不同的类应用不同的聚合函数-使用 dict 作为参数来实现
      • 5)重置索引
    • 2.分组运算和转换
      • 1)分组数据变换-transform
      • 2)距平化-与平均值的差异值
      • 3)自定义数据处理apply
      • 4)apply 应用示例

聚合统计

1.数据聚合

分组运算,先根据一定规则拆分后的数据,然后对数据进行聚合运算,如前面见到的 mean(), sum() 等就是聚合的例子。聚合时,拆分后的第一个索引指定的数据都会依次传给聚合函数进行运算。最后再把运算结果合并起来,生成最终结果。

聚合函数除了内置的 sum(), min(), max(), mean() 等等之外,还可以自定义聚合函数。自定义聚合函数时,使用 agg() 或 aggregate() 函数。

1)内置聚合函数


2)自定义聚合函数agg

3)一次性应用多个聚合函数

4)给不同的类应用不同的聚合函数-使用 dict 作为参数来实现

5)重置索引

2.分组运算和转换

groupby 是特殊的分组运算。更一般的分组运算包括 “拆分 - 应用 - 合并”。这里介绍 transform() 和 apply() 来实现分组运算。

1)分组数据变换-transform


2)距平化-与平均值的差异值

3)自定义数据处理apply

DataFrame 的 apply 函数是逐行或逐列来处理数据。GroupBy 的 apply 函数对每个分组进行计算。

4)apply 应用示例

apply 应用示例:用不同的分组平均值填充空缺数据

数据科学包8-pandas高级内容之聚合统计相关推荐

  1. python第二阶段(2)入门-数据科学包 pandas

    数据科学包 pandas 导入pandas 创建对象 1 系列 2 日期序列(1) 3 日期序列(2) 4 Series的操作(1) 5 Series的操作(2) 合并,新增,连接和比较 1 连接 2 ...

  2. 3.机器学习—数据科学包3.2pandas基础

    pandas基础 一.pandas介绍 1.什么是pandas 2.pandas用途 3.课程内容 二.Ipython开发环境搭建 1.安装 2.新建运行环境 3.Ipython技巧 4.Ipytho ...

  3. 机器学习---数据科学包-第2天

    1 pandas快速入门(一) .Series()方法.Series类型由一组数据及与之相关的数据索引组成. import pandas as pd import numpy as np s = pd ...

  4. 数据科学包——Day2

    数据科学包--Day2 利用Pandas, Numpy进行电影数据分析 准备工作 任务: 数据读取 数据合并 按性别查看各个电影的平均评分 男女评分差异最大的电影 活跃电影排行 前十大活跃电影--被评 ...

  5. python 数据科学 包_什么时候应该使用哪个Python数据科学软件包?

    python 数据科学 包 Python is the most popular language for data science. Unfortunately, it can be tricky ...

  6. 机器学习-数据科学库:Pandas总结(1)

    机器学习-数据科学库:Pandas总结(1) Pandas pandas的常用数据类型 pandas之Series创建 pandas之Series切片和索引 pandas之读取外部数据 pandas之 ...

  7. 数据科学包——pandas基础(处理丢失数据、统计、合并、分组)

    文章目录 一.处理丢失数据 1.为空值数据赋值 2.删除空数据行和列 3.填充所有缺失数据 4.判断是否有NaN值 二.统计 1.平均值.求和.累加和 2.shift函数 3.sub函数 4.appl ...

  8. python中画出距平垂线_3.机器学习—数据科学包3.3pandas操作

    pandas操作 一.pandas索引 1.Series索引index 2.DateFrame行索引index和列索引columns 3.pandas预置索引的类 4.重复索引 4.1重复索引定义 4 ...

  9. 看看这些鲜为人知的宝藏Python数据科学包吧!

    动态数据科学的这三剑客几乎无人不知无人不晓:Numpy,Pandas和Matplotlib.你可能已经熟悉这些包以及它们的运作方式. 还有其他很炫酷的包,你肯定也想试一试,例如Plotly,Seabo ...

  10. python数据科学系列:pandas入门详细教程

    导读 前2篇分别系统性介绍了numpy和matplotlib的入门基本知识,今天本文自然是要对pandas进行入门详细介绍,通过本文你将系统性了解pandas为何会有数据分析界"瑞士军刀&q ...

最新文章

  1. 2021-07-29 labelme注释、分类和Json文件转化(转化成彩图mask)
  2. configure: error: newly created file is older than distributed files!
  3. Roman to Integer - LeetCode
  4. html5家谱资源网,免费家谱系统(ASP,Access,CSS,html5)
  5. swig模板 PHP,如何使用nodejs前端模板引擎swig
  6. html鼠标划过显示图片,jquery实现鼠标滑过小图查看大图的方法
  7. IBM 、M$ 、Google Apple
  8. MySQL进阶11--DDL数据库定义语言--库创建/修改/删除--表的创建/修改/删除/复制
  9. python之str与bytes互转
  10. scvmm管理hyper-v克隆主机(二)
  11. 【iVX从入门到精通 · 开篇】初始iVX——零代码的可视化编程语言
  12. 《产品经理的第一本书》--产品经理职责
  13. 矩阵的逆矩阵 和 转置矩阵
  14. 细数阿里 25 个开源的前端项目
  15. css font-size 失效,css font-size不管用的经解决方法
  16. 年度回顾篇:2018年的亚马逊,众生虽苦,诸恶莫作
  17. 骑行318、 2016.7.13
  18. Mysql更新百万历史数据
  19. 玩客云退出链克计划后还是会下载缓存垃圾,程序员教你如何彻底绝育玩客云老母鸡
  20. puppy linux中文设置,使用puppyLinux心得

热门文章

  1. 敏捷开发免费管理工具——火星人预览(四)
  2. Expert C Programming学习笔记(1)
  3. 09年关门歇业的15大网站 雅虎旗下4网站上榜
  4. Altium Designer(十):极坐标
  5. java day07【Scanner类、Random类、ArrayList 类】
  6. [微软官网] SQLSERVER 执行页面还原
  7. python+request+Excel做接口自动化测试
  8. swing JTable
  9. docker 监控之 cadvisor
  10. yum安装mysql5.7