3.2 数据特征分析

对数据进行质量分析以后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析。

3.2.1 分布分析

分布分析能揭示数据的分布特征和分布类型。对于定量数据,欲了解其分布形式是对称的还是非对称的,发现某些特大或特小的可疑值,可通过绘制频率分布表、绘制频率分布直方图、绘制茎叶图进行直观地分析;对于定性分类数据,可用饼图和条形图直观地显示分布情况。

1.定量数据的分布分析

对于定量变量而言,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照以下步骤进行。

1)求极差。

2)决定组距与组数。

3)决定分点。

4)列出频率分布表。

5)绘制频率分布直方图。

遵循的主要原则如下。

1)各组之间必须是相互排斥的。

2)各组必须将所有的数据包含在内。

3)各组的组宽最好相等。

下面结合具体实例,运用分布分析对定量数据进行特征分析。

表3-2是描述菜品“捞起生鱼片”在2014年第二个季度的销售数据,通过表中数据绘制销售量的频率分布表、频率分布图,对该定量数据做出相应的分析。

(1)求极差

极差=最大值-最小值=3960-45=3915

(2)分组

这里根据业务数据的含义,可取组距为500。

组数=极差/组距=3915/500=7.838

(3)决定分点

分布区间如表3-3所示。

(4)绘制频率分布直方图[3]

根据分组区间得到如表3-4所示的频率分布表。其中,第1列将数据所在的范围分成若干组段,第1个组段要包括最小值,最后一个组段要包括最大值。习惯上将各组段设为左闭右开的半开区间,如第一个分组为[0,500)。第2列组中值是各组段的代表值,由本组段的上、下限相加除以2得到。

第3列和第4列分别为频数和频率。第5列是累计频率,是否需要计算该列视情况而定。

(5)绘制频率分布直方图

若以2014年第二季度“捞起生鱼片”每天的销售额为横轴,以各组段的频率密度(频率与组距之比)为纵轴,表34的数据可绘制成频率分布直方图,如图3-3所示。

2.定性数据的分布分析

对于定性变量,常常根据变量的分类类型来分组,可以采用饼图和条形图来描述定性变量的分布。

饼图的每一个扇形部分代表每一类型的百分比或频数,根据定性变量的类型数目将饼图分成几个部分,每一部分的大小与每一类型的频数成正比;条形图的高度代表每一类型的百分比或频数,条形图的宽度没有意义。

python数据按照分组进行频率分布_3.2.1 分布分析相关推荐

  1. python数据按照分组进行频率分布_python实现读取类别频数数据画水平条形图

    1.数据分组-->频数分布表 环境配置: 1 importpandas as pd2 importnumpy as np3 import matplotlib.pyplot as plt 按照你 ...

  2. python数据按照分组进行频率分布_python 等频率切分数据

    小编最近入坑风控,在工作中需要对数据进行等频率切分,也就是将数据划分成几段,在每段中,数据的出现频率,出现次数是大致相同的,让数据集在每段上呈现出分布均匀的趋势. 小编先是想到df.describe ...

  3. python数据按照分组进行频数_Pandas:按两列分组并计算第二列中所有值的出现次数...

    我相信您需要先替换所有值>=6,然后再替换groupby+aggregatesum:s = df['num ofcust'].mask(df['num ofcust'] >=6, '6+' ...

  4. python数据可视化案例 淘宝粽子_Python可视化对比分析淘宝低价人群和匿名用户的淘宝连衣裙数据...

    1.我是一个低价人群用户 上周发表文章<一个匿名用户的淘宝"连衣裙"大观>后,交流群里面很热闹地讨论了起来,小伙伴们都在秀自己的淘宝连衣裙搜索价格,相较于小伙伴们搜索出 ...

  5. Python数据聚合和分组运算(1)-GroupBy Mechanics

    前言 Python的pandas包提供的数据聚合与分组运算功能很强大,也很灵活.<Python for Data Analysis>这本书第9章详细的介绍了这方面的用法,但是有些细节不常用 ...

  6. 利用python对数据进行分组统计

    SQL经常将聚合函数与GROUP BY进行组合,对数据进行分组统计分析,python在分析数据中也可以实现相同的功能,而且python也是用GROUPBY 首先创建一个数据表 import panda ...

  7. 【学习经典】python 数据聚合与分组运算(part 2)

    本文的前半部分:python 数据聚合与分组运算(part 1) 4. 透视表和交叉表 透视表(pivot table)是各种电子表格程序和其他数据分析软件中一种常见的数据汇总工具.它根据一个或多个键 ...

  8. python数据科学包第三天(索引、分组计算、数据聚合、分组运算和转换、载入数据、日期范围、数据可视化)

    索引 行索引 列索引 索引的分类 重复索引的处理 s = pd.Series(np.random.rand(5), index=list('abcde')) s a 0.566924 b 0.6034 ...

  9. python 数据聚合与分组

    python 数据聚合与分组 前面讲完了字符处理,但对数据进行整体性的聚合运算以及分组操作也是数据分析的重要内容. 通过数据的聚合与分组,我们能更容易的发现隐藏在数据中的规律. 数据分组 数据的分组核 ...

  10. python 数据分组后看每组多少个_【Python】分组统计GroupBy技术详解

    摘要 进行数据分析时,GroupBy分组统计是非常常用的操作,也是十分重要的操作之一.基本上大部分的数据分析都会用到该操作,本文将对Python的GroupBy分组统计操作进行讲解. 1.GroupB ...

最新文章

  1. 谷歌大脑联手Hinton提出SimCLR新框架,疯狂提升自监督学习性能 | 北邮毕业生一作...
  2. darknet-mini:带注释的darknet简化版,助你深入理解YOLO
  3. winform打开cad图纸_CAD打开图纸的方法汇总
  4. SSO单点登录系列2:cas客户端和cas服务端交互原理动画图解,cas协议终极分析
  5. 课时105.边框属性下(掌握)
  6. 王道考研 计算机网络2 标准化工作
  7. 面试题:在日常工作中怎么做MySQL优化的?
  8. 年度电竞游戏旗舰红魔3S发布:性能王者2999元起!
  9. hsqldb和mysql_HSQLDB的研究与性能测试(与Mysql对比)
  10. Android 自定义View修炼-打造完美的自定义侧滑菜单/侧滑View控件(转)
  11. fatal: remote origin already exists
  12. 天锐绿盾加密软件支持什么操作系统?
  13. 智能变电站调试仿真培训系统 61850规约培训系统 免费送
  14. 秀球技:倒和其他无用
  15. 完美解决苹果电脑mac终端无法输入大写T的问题
  16. 【寒江雪】UV+Depth信息计算世界坐标
  17. 吉他软件打谱常用的的音符时值
  18. Android 10.0在电话拨号盘(Dialer app中)通过暗码进入工厂测试模式
  19. 接口 和 http协议
  20. 计算机系统基础期末复习--袁春风详细版

热门文章

  1. 无人驾驶5: 贝叶斯公式
  2. 疯狂打CALL,机器人抢镜时尚大典
  3. MVC 模式已死?何不试试 MOVE
  4. Color Models (RGB, CMY, HSI)
  5. 一篇文章带你搞懂 JPA 和 hibernate
  6. 十五个问题了解个税汇算清缴
  7. 【数据库】数据、数据库、数据库管理系统、数据库系统
  8. Boob炸弹拆除IDA版
  9. ftp 服务器管理工具,5款最好用的ftp 服务器管理工具
  10. 解决IDEA的maven刷新依赖时出现Connot reconnect错误