数据科学包8-pandas高级内容之聚合统计
文章目录
- 聚合统计
- 1.数据聚合
- 1)内置聚合函数
- 2)自定义聚合函数agg
- 3)一次性应用多个聚合函数
- 4)给不同的类应用不同的聚合函数-使用 dict 作为参数来实现
- 5)重置索引
- 2.分组运算和转换
- 1)分组数据变换-transform
- 2)距平化-与平均值的差异值
- 3)自定义数据处理apply
- 4)apply 应用示例
聚合统计
1.数据聚合
分组运算,先根据一定规则拆分后的数据,然后对数据进行聚合运算,如前面见到的 mean(), sum() 等就是聚合的例子。聚合时,拆分后的第一个索引指定的数据都会依次传给聚合函数进行运算。最后再把运算结果合并起来,生成最终结果。
聚合函数除了内置的 sum(), min(), max(), mean() 等等之外,还可以自定义聚合函数。自定义聚合函数时,使用 agg() 或 aggregate() 函数。
1)内置聚合函数
2)自定义聚合函数agg
3)一次性应用多个聚合函数
4)给不同的类应用不同的聚合函数-使用 dict 作为参数来实现
5)重置索引
2.分组运算和转换
groupby 是特殊的分组运算。更一般的分组运算包括 “拆分 - 应用 - 合并”。这里介绍 transform() 和 apply() 来实现分组运算。
1)分组数据变换-transform
2)距平化-与平均值的差异值
3)自定义数据处理apply
DataFrame 的 apply 函数是逐行或逐列来处理数据。GroupBy 的 apply 函数对每个分组进行计算。
4)apply 应用示例
apply 应用示例:用不同的分组平均值填充空缺数据
数据科学包8-pandas高级内容之聚合统计相关推荐
- python第二阶段(2)入门-数据科学包 pandas
数据科学包 pandas 导入pandas 创建对象 1 系列 2 日期序列(1) 3 日期序列(2) 4 Series的操作(1) 5 Series的操作(2) 合并,新增,连接和比较 1 连接 2 ...
- 3.机器学习—数据科学包3.2pandas基础
pandas基础 一.pandas介绍 1.什么是pandas 2.pandas用途 3.课程内容 二.Ipython开发环境搭建 1.安装 2.新建运行环境 3.Ipython技巧 4.Ipytho ...
- 机器学习---数据科学包-第2天
1 pandas快速入门(一) .Series()方法.Series类型由一组数据及与之相关的数据索引组成. import pandas as pd import numpy as np s = pd ...
- 数据科学包——Day2
数据科学包--Day2 利用Pandas, Numpy进行电影数据分析 准备工作 任务: 数据读取 数据合并 按性别查看各个电影的平均评分 男女评分差异最大的电影 活跃电影排行 前十大活跃电影--被评 ...
- python 数据科学 包_什么时候应该使用哪个Python数据科学软件包?
python 数据科学 包 Python is the most popular language for data science. Unfortunately, it can be tricky ...
- 机器学习-数据科学库:Pandas总结(1)
机器学习-数据科学库:Pandas总结(1) Pandas pandas的常用数据类型 pandas之Series创建 pandas之Series切片和索引 pandas之读取外部数据 pandas之 ...
- 数据科学包——pandas基础(处理丢失数据、统计、合并、分组)
文章目录 一.处理丢失数据 1.为空值数据赋值 2.删除空数据行和列 3.填充所有缺失数据 4.判断是否有NaN值 二.统计 1.平均值.求和.累加和 2.shift函数 3.sub函数 4.appl ...
- python中画出距平垂线_3.机器学习—数据科学包3.3pandas操作
pandas操作 一.pandas索引 1.Series索引index 2.DateFrame行索引index和列索引columns 3.pandas预置索引的类 4.重复索引 4.1重复索引定义 4 ...
- 看看这些鲜为人知的宝藏Python数据科学包吧!
动态数据科学的这三剑客几乎无人不知无人不晓:Numpy,Pandas和Matplotlib.你可能已经熟悉这些包以及它们的运作方式. 还有其他很炫酷的包,你肯定也想试一试,例如Plotly,Seabo ...
- python数据科学系列:pandas入门详细教程
导读 前2篇分别系统性介绍了numpy和matplotlib的入门基本知识,今天本文自然是要对pandas进行入门详细介绍,通过本文你将系统性了解pandas为何会有数据分析界"瑞士军刀&q ...
最新文章
- 2021-07-29 labelme注释、分类和Json文件转化(转化成彩图mask)
- configure: error: newly created file is older than distributed files!
- Roman to Integer - LeetCode
- html5家谱资源网,免费家谱系统(ASP,Access,CSS,html5)
- swig模板 PHP,如何使用nodejs前端模板引擎swig
- html鼠标划过显示图片,jquery实现鼠标滑过小图查看大图的方法
- IBM 、M$ 、Google Apple
- MySQL进阶11--DDL数据库定义语言--库创建/修改/删除--表的创建/修改/删除/复制
- python之str与bytes互转
- scvmm管理hyper-v克隆主机(二)
- 【iVX从入门到精通 · 开篇】初始iVX——零代码的可视化编程语言
- 《产品经理的第一本书》--产品经理职责
- 矩阵的逆矩阵 和 转置矩阵
- 细数阿里 25 个开源的前端项目
- css font-size 失效,css font-size不管用的经解决方法
- 年度回顾篇:2018年的亚马逊,众生虽苦,诸恶莫作
- 骑行318、 2016.7.13
- Mysql更新百万历史数据
- 玩客云退出链克计划后还是会下载缓存垃圾,程序员教你如何彻底绝育玩客云老母鸡
- puppy linux中文设置,使用puppyLinux心得