【Python 数据科学】分组group by基础
>>>import pandas as pd
>>>df=pd.read_csv('DataAnalyst.csv',encoding='gbk')
#分组并计数
#groupby后面需要跟函数才能显示
>>>df.groupby(by='city').count()
companyFullName | companyId | companyLabelList | companyShortName | companySize | businessZones | firstType | secondType | education | industryField | positionId | positionAdvantage | positionName | positionLables | bottom | top | avg | workYear | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
city | ||||||||||||||||||
上海 | 969 | 969 | 870 | 969 | 969 | 712 | 969 | 969 | 969 | 969 | 969 | 969 | 969 | 963 | 969 | 969 | 969 | 969 |
北京 | 4148 | 4148 | 3726 | 4148 | 4148 | 3068 | 4142 | 4143 | 4148 | 4148 | 4148 | 4148 | 4148 | 4129 | 4148 | 4148 | 4148 | 4148 |
南京 | 82 | 82 | 74 | 82 | 82 | 51 | 82 | 82 | 82 | 82 | 82 | 82 | 82 | 81 | 82 | 82 | 82 | 82 |
厦门 | 30 | 30 | 25 | 30 | 30 | 19 | 30 | 30 | 30 | 30 | 30 | 30 | 30 | 30 | 30 | 30 | 30 | 30 |
天津 | 20 | 20 | 18 | 20 | 20 | 15 | 20 | 20 | 20 | 20 | 20 | 20 | 20 | 20 | 20 | 20 | 20 | 20 |
广州 | 334 | 334 | 295 | 334 | 334 | 226 | 334 | 334 | 334 | 334 | 334 | 334 | 334 | 332 | 334 | 334 | 334 | 334 |
成都 | 133 | 133 | 113 | 133 | 133 | 35 | 133 | 133 | 133 | 133 | 133 | 133 | 133 | 132 | 133 | 133 | 133 | 133 |
杭州 | 404 | 404 | 374 | 404 | 404 | 241 | 403 | 403 | 404 | 404 | 404 | 404 | 404 | 403 | 404 | 404 | 404 | 404 |
武汉 | 69 | 69 | 62 | 69 | 69 | 49 | 69 | 69 | 69 | 69 | 69 | 69 | 69 | 69 | 69 | 69 | 69 | 69 |
深圳 | 522 | 522 | 473 | 522 | 522 | 363 | 522 | 522 | 522 | 522 | 522 | 522 | 522 | 520 | 522 | 522 | 522 | 522 |
苏州 | 37 | 37 | 30 | 37 | 37 | 15 | 37 | 37 | 37 | 37 | 37 | 37 | 37 | 37 | 37 | 37 | 37 | 37 |
西安 | 50 | 50 | 39 | 50 | 50 | 25 | 50 | 50 | 50 | 50 | 50 | 50 | 50 | 50 | 50 | 50 | 50 | 50 |
长沙 | 25 | 25 | 22 | 25 | 25 | 14 | 25 | 25 | 25 | 25 | 25 | 25 | 25 | 25 | 25 | 25 | 25 | 25 |
#分组后求组内某一字段的最大值
>>>df.groupby(by='city').avg.max()
city
上海 75.0
北京 75.0
南京 25.0
厦门 25.0
天津 17.5
广州 45.0
成都 65.0
杭州 60.0
武汉 26.5
深圳 75.0
苏州 30.0
西安 35.0
长沙 15.0
Name: avg, dtype: float64
#多字段分组,多重索引
>>>df.groupby(by=['city','workYear']).mean()
companyId | positionId | bottom | top | avg | ||
---|---|---|---|---|---|---|
city | workYear | |||||
上海 | 1-3年 | 56370.229560 | 2.122294e+06 | 10.110063 | 17.298742 | 13.704403 |
10年以上 | 50283.500000 | 2.186072e+06 | 27.500000 | 42.500000 | 35.000000 | |
1年以下 | 66486.562500 | 2.335498e+06 | 6.875000 | 11.812500 | 9.343750 | |
3-5年 | 56284.833828 | 2.148159e+06 | 14.798220 | 25.130564 | 19.964392 | |
5-10年 | 64153.386861 | 2.204261e+06 | 21.145985 | 35.510949 | 28.328467 | |
不限 | 68837.887097 | 2.221343e+06 | 7.467742 | 13.322581 | 10.395161 | |
应届毕业生 | 48962.636364 | 2.313271e+06 | 5.606061 | 8.606061 | 7.106061 | |
北京 | 1-3年 | 55965.545799 | 2.176951e+06 | 11.349735 | 20.141559 | 15.745647 |
10年以上 | 67579.785714 | 2.376643e+06 | 34.642857 | 52.857143 | 43.750000 | |
1年以下 | 91526.250000 | 2.409707e+06 | 5.687500 | 9.708333 | 7.697917 | |
3-5年 | 51318.617114 | 2.213610e+06 | 15.839475 | 27.521549 | 21.680512 | |
5-10年 | 51625.509132 | 2.262125e+06 | 20.979452 | 34.874429 | 27.926941 | |
不限 | 58820.321027 | 2.158942e+06 | 9.046549 | 15.762440 | 12.404494 | |
应届毕业生 | 57623.291262 | 2.275363e+06 | 5.242718 | 8.485437 | 6.864078 | |
南京 | 1-3年 | 74551.291667 | 2.184282e+06 | 7.000000 | 11.625000 | 9.312500 |
1年以下 | 82443.000000 | 2.561404e+06 | 2.500000 | 5.000000 | 3.750000 | |
3-5年 | 65279.333333 | 2.164212e+06 | 10.750000 | 18.750000 | 14.750000 | |
5-10年 | 21079.200000 | 2.389005e+06 | 15.600000 | 26.200000 | 20.900000 | |
不限 | 60472.260870 | 2.346818e+06 | 5.652174 | 10.391304 | 8.021739 | |
应届毕业生 | 30884.500000 | 2.382802e+06 | 5.750000 | 9.250000 | 7.500000 | |
厦门 | 1-3年 | 58654.466667 | 1.876766e+06 | 7.400000 | 13.266667 | 10.333333 |
3-5年 | 63641.600000 | 1.940944e+06 | 9.600000 | 17.200000 | 13.400000 | |
不限 | 82702.555556 | 2.025943e+06 | 7.444444 | 14.666667 | 11.055556 | |
应届毕业生 | 9547.000000 | 2.411738e+06 | 5.000000 | 10.000000 | 7.500000 | |
天津 | 1-3年 | 55338.666667 | 2.327896e+06 | 4.666667 | 7.333333 | 6.000000 |
3-5年 | 68648.800000 | 2.272681e+06 | 8.400000 | 14.400000 | 11.400000 | |
5-10年 | 66805.000000 | 2.343332e+06 | 15.000000 | 20.000000 | 17.500000 | |
不限 | 89693.142857 | 2.059957e+06 | 5.571429 | 9.142857 | 7.357143 | |
应届毕业生 | 81114.000000 | 2.338327e+06 | 2.000000 | 4.000000 | 3.000000 | |
广州 | 1-3年 | 58407.514706 | 2.223685e+06 | 8.073529 | 13.948529 | 11.011029 |
... | ... | ... | ... | ... | ... | ... |
杭州 | 不限 | 59188.078947 | 2.270072e+06 | 10.184211 | 18.552632 | 14.368421 |
应届毕业生 | 31184.083333 | 2.132055e+06 | 6.083333 | 11.416667 | 8.750000 | |
武汉 | 1-3年 | 61891.100000 | 2.074843e+06 | 6.000000 | 11.200000 | 8.600000 |
1年以下 | 78797.000000 | 1.100027e+06 | 3.000000 | 4.000000 | 3.500000 | |
3-5年 | 60472.259259 | 2.134416e+06 | 9.777778 | 17.666667 | 13.722222 | |
5-10年 | 57453.000000 | 1.987101e+06 | 12.090909 | 20.727273 | 16.409091 | |
不限 | 48843.375000 | 2.452173e+06 | 4.250000 | 7.250000 | 5.750000 | |
应届毕业生 | 79294.500000 | 2.403577e+06 | 2.500000 | 4.500000 | 3.500000 | |
深圳 | 1-3年 | 66374.393333 | 2.141864e+06 | 9.380000 | 16.540000 | 12.960000 |
10年以上 | 68993.500000 | 2.324062e+06 | 19.500000 | 32.500000 | 26.000000 | |
1年以下 | 73129.500000 | 1.663716e+06 | 10.500000 | 20.000000 | 15.250000 | |
3-5年 | 54833.537688 | 2.155506e+06 | 14.090452 | 25.271357 | 19.680905 | |
5-10年 | 46952.378049 | 2.075490e+06 | 19.536585 | 33.451220 | 26.493902 | |
不限 | 72778.861111 | 2.178372e+06 | 8.916667 | 15.444444 | 12.180556 | |
应届毕业生 | 60220.615385 | 1.917779e+06 | 6.692308 | 9.923077 | 8.307692 | |
苏州 | 1-3年 | 69105.000000 | 2.285118e+06 | 8.545455 | 14.727273 | 11.636364 |
3-5年 | 41914.266667 | 2.192177e+06 | 10.066667 | 17.533333 | 13.800000 | |
5-10年 | 23127.285714 | 1.969094e+06 | 17.571429 | 31.285714 | 24.428571 | |
不限 | 66902.000000 | 1.689665e+06 | 6.333333 | 10.333333 | 8.333333 | |
应届毕业生 | 94.000000 | 2.360554e+06 | 5.000000 | 10.000000 | 7.500000 | |
西安 | 1-3年 | 74480.333333 | 2.054798e+06 | 5.916667 | 10.750000 | 8.333333 |
3-5年 | 77698.923077 | 2.302673e+06 | 9.769231 | 16.846154 | 13.307692 | |
5-10年 | 55435.800000 | 2.228356e+06 | 14.400000 | 22.600000 | 18.500000 | |
不限 | 78890.166667 | 2.271278e+06 | 2.333333 | 4.500000 | 3.416667 | |
应届毕业生 | 7502.000000 | 2.574456e+06 | 6.000000 | 9.000000 | 7.500000 | |
长沙 | 1-3年 | 44605.555556 | 2.166399e+06 | 7.111111 | 12.333333 | 9.722222 |
3-5年 | 44933.900000 | 2.178290e+06 | 7.800000 | 14.400000 | 11.100000 | |
5-10年 | 7382.000000 | 7.452570e+05 | 9.000000 | 12.000000 | 10.500000 | |
不限 | 98598.000000 | 2.201182e+06 | 5.000000 | 8.250000 | 6.625000 | |
应届毕业生 | 149263.000000 | 2.430719e+06 | 3.000000 | 6.000000 | 4.500000 |
75 rows × 5 columns
#同时计算分组下某个字段的最大值和最小值
for k,v in df.groupby(by='city'):print(k,max(v.avg),min(v.avg))print('--'*10)
上海 75.0 1.5
--------------------
北京 75.0 1.5
--------------------
南京 25.0 1.5
--------------------
厦门 25.0 3.5
--------------------
天津 17.5 3.0
--------------------
广州 45.0 1.5
--------------------
成都 65.0 1.5
--------------------
杭州 60.0 2.5
--------------------
武汉 26.5 1.5
--------------------
深圳 75.0 1.5
--------------------
苏州 30.0 4.0
--------------------
西安 35.0 2.5
--------------------
长沙 15.0 2.5
--------------------
【Python 数据科学】分组group by基础相关推荐
- 【Python数据科学快速入门系列 | 06】Matplotlib数据可视化基础入门(一)
这是机器未来的第52篇文章 原文首发地址:https://robotsfutures.blog.csdn.net/article/details/126899226 <Python数据科学快速入 ...
- python数据科学系列:pandas入门详细教程
导读 前2篇分别系统性介绍了numpy和matplotlib的入门基本知识,今天本文自然是要对pandas进行入门详细介绍,通过本文你将系统性了解pandas为何会有数据分析界"瑞士军刀&q ...
- python数据科学手册_小白入门Python数据科学
前言 本文讲解了从零开始学习Python数据科学的全过程,涵盖各种工具和方法 你将会学习到如何使用python做基本的数据分析 你还可以了解机器学习算法的原理和使用 说明 先说一段题外话.我是一名数据 ...
- python数据科学-单变量数据分析
总第85篇 01|背景: 我们在做机器学习之前,需要自己先对数据进行深入的了解(这些数据是什么类型,总共有多少数据,有没有缺失值,均值是多少之类的),只有自己对数据足够了解了,才能够更好地利用机器学习 ...
- python数据科学入门_干货!小白入门Python数据科学全教程
前言本文讲解了从零开始学习Python数据科学的全过程,涵盖各种工具和方法 你将会学习到如何使用python做基本的数据分析 你还可以了解机器学习算法的原理和使用 说明 先说一段题外话.我是一名数据工 ...
- python书籍推荐:Python数据科学手册
所属网站分类: 资源下载 > python电子书 作者:today 链接:http://www.pythonheidong.com/blog/article/448/ 来源:python黑洞网 ...
- python数据科学库_Python数据科学库
python数据科学库 什么是数据科学? (What is Data Science?) We live in an information age, where the challenge is t ...
- Python 数据科学库入门
Python 数据科学库入门 1.Numpy 1.1Numpy 简介 Numpy(Numerical Python) Numpy:提供了一个在 Python 中做科学计算的基础库,重在数值计算,主要用 ...
- python数据科学常国珍_《PYTHON数据科学:全栈技术详解》常国珍//赵仁乾//张秋剑著【摘要 书评 在线阅读】-苏宁易购图书...
商品参数 作者: 常国珍//赵仁乾//张秋剑著 出版社:机械工业出版社 出版时间:2018-07-01 00:00:00 版次:1 印次:1 印刷时间:2018-07-01 字数:250 页数:422 ...
- 《Python数据科学入门》之数据库的使用(第4章)
Python数据科学入门 Dmitry Zinoviev著 熊子源 译 第四章 使用数据库 本章介绍了数据库的使用.之前那本<Python爬虫>中有谈到数据库的使用,这里就不再详细介绍.仅 ...
最新文章
- 网络欺骗工具Ettercap大学霸IT达人
- 从配置服务器说起......
- java session 生命周期_JavaWeb关于session生命周期的几种设置方法
- SpringMVC框架结构以及架构流程
- python 群控源代码_自动化 带你用 Python 实现自动化群控设备 _好机友
- 线程和进程之间的联系----基本概念
- 包含重复数字序列的全排列Python解法
- MPEG-4 AVC/H.264 信息
- 树莓派linux共享目录,树莓派局域网文件共享
- freebsd下支持LATEX书写数学公式的网站搭建
- 智能感知与万物互联学术讲座
- 标注工具——VoTT的调试笔记
- visual studio 安装教程
- Microsoft强大团队(源代码)管理工具--TFS2010 与vs结合
- 进程的同步和互斥反映了_进程的同步和互斥
- 大学,学会这样上网才有意义!
- 灵格斯词霸 2.6.3 - 小窗口, 大世界
- Linux - Vim常用命令清单
- 视网膜屏 retina屏
- C#自定义好看的消息提示窗口MessageBox
热门文章
- BK7256,上海博通-音视频Wi-Fi6combo-soc,内置Flash,RGB屏驱\720P
- Android 小工具--圆形图片
- 笔记本升级--固态硬盘安装双系统win10-CentOS
- 深圳计算机专业中专学校,深圳最好的中专学校有哪些 十大中专学校排名
- redis中使用GeoHash
- 标准柯西分布_柯西分布的随机数
- NDK中LOCAL_SHARED_LIBRARIES
- 一级计算机软件wps,计算机一级WPS
- 苹果手机计算机怎样拉到桌面,20个你应该知道的iPhone 7实用小技巧
- 做好产品需求文档的这十步