导读:报表与统计图作为数据信息输出的一种方式,被广泛运用于数据展示、交流等工作中。本文使用一份二手房数据演示如何制作报表与统计图。

报表可用于展现数据的主要信息,分为包含维度(分类变量)指标度量(连续变量)指标的报表。

仅含有维度指标的报表称为频次表(单个分类变量)和交叉表(两个及以上分类变量),含有维度和度量两类指标的报表称为汇总表,其中度量指标总是以某个统计量的形式出现,最常出现的是均值、总和、频次。

条形图是一种运用非常广泛的数据展示图,便于分类变量之间的数据对比。条形图和报表有一一对应关系。如果有一个分类变量,条形图就是一维的;如果有两个分类变量,条形图就是二维的。条的长度对应频次或度量指标的某个统计量,如图1所示。

图1 报表与统计图形

接下来使用一份二手房数据(sndHsPr.csv)演示如何制作报表。对于二手房,我们不但关心其本身的统计特征(统计量),还关心影响这个变量的因素,如表1所示。

表1 二手房数据

制作报表就是根据数据类型选取合适的统计量并进行展现的过程。图2表现的是一个比较全面的二维表模板,三维表只不过是简单的叠加而已。水平轴和垂直轴分别是两个分类变量。单元格中存放的是某个变量的统计量。如果单元格中没有放入任何变量,其展现的是频次或百分比等指标。如果单元格中放入某个连续变量,其展现的就是这个连续变量的某个统计量,比如均值、总和等。

图2 二维表模板

将二维表模板的内容进行缩减,可以得到单因子频数、表分析、汇总统计量,具体说明如下。

1)单因子频数:仅分析单个分类变量的分布情况,提供每个分类水平的频次、百分比和累积值,如图3所示。

图3 单因子频数统计示意

snd为读入数据后的数据框名称,district为该住房所在城区的中文名称,value_counts函数用于获取每个城区出现的频次,完整的语句为snd.district.value_counts()。用条形图展现频次统计的语句为snd.district.value_counts().plot(kind = 'bar'),其中“kind =”为图表类型,bar表示柱形图,如图4所示。

图4 单因子统计图形示意

2)表分析:分析两个分类变量的联合分布情况,提供每个单元格中样本出现的频次、百分比和边沿分布情况,如图5所示。

图5 表分析示意

表分析(也称交叉表)使用的函数为pd.crosstab,比如分析是否有地铁与是否是学区房之间的关系,语句为pd.crosstab(snd.subway,snd.school)。我们可以使用标准化堆叠柱形图对表分析的结果进行展现。其步骤是先获取交叉表的结果,然后使用div(sub_sch.sum(1),axis = 0)函数计算交叉表的行百分比,最后绘制柱形图,如图6所示。

图6 表分析统计图形

堆叠柱形图易于展现横轴变量的分布情况,标准化堆叠柱形图易于做比较,笔者推荐采用图7来展现全部交叉表信息。本书提供了stack2dim函数制作堆叠柱形图,其主要参数raw为Pandas的数据框,i、j为两个分类变量的变量名称,要求带引号,比如"school"。

图7 堆叠柱形图示意

3)汇总统计量:按照某个分类变量分组,对连续变量进行描述性统计,如图5-18所示。

图8 汇总统计量示意

图9展现了每个城区单位面积房价的统计信息,我们可以使用Pandas提供的函数snd.price.groupby(snd.district).agg(['mean', 'max', 'min'])获取。该语句的含义为按照district变量分组,计算price的均值、最大值、最小值,其中agg函数的功能是归并若干个函数的结果。

图9 汇总统计量统计图形示意

本文摘编于《金融商业数据分析:基于Python和SAS》,经出版方授权发布。(书号:978-7-7-111-69583-7)

●适婚农村青年找对象有多难?
●品牌知名度分析

原来报表与统计图要这么做~相关推荐

  1. 润乾报表echarts统计图省份地图设置

     需求是制作单个省份的地图,比如,要制作一张江西省的产业分布图,通过echarts设置,首先要有江西省地图的js或者是json,在润乾设计器中有自带的模板可以直接使用,report5\web\we ...

  2. mysql 表 地图_报表中的地图怎么做?

    在地图上展现地域相关的数据,是在公共设施管理.交通.电信.城市建设.能源.电力.农业等国民经济相关的应用系统中是比较常见的直观图表形式.以前,如果在报表应用系统中需要显示地图相关的信息,开发人员可能会 ...

  3. 报表中的地图怎么做?

    在地图上展现地域相关的数据,是在公共设施管理.交通.电信.城市建设.能源.电力.农业等国民经济相关的应用系统中是比较常见的直观图表形式.以前,如果在报表应用系统中需要显示地图相关的信息,开发人员可能会 ...

  4. 50套可视化报表模板直接用,做报告不用愁了!快收藏

    总有人头疼:报表怎么做?数据怎么展现给领导才是最合适的?年终总结怎么让人眼前一亮? 用Excel吧,太低端了,而且是真的丑,万一被pass不就惨了? 用python自动化吧,不会代码,不给自己找事了. ...

  5. 这才是老板爱看的人力资源分析报表,你只是在做“流水账”!

    这篇从指标确认--图表搭建--数据分析来系统说下月度人力资源数据分析应该怎么做. 在做数据分析报表之前,得先知道月度人力资源数据分析包括哪些内容: 本月重点工作及上月工作总结 在职人员结构分析 月度人 ...

  6. 10年报表开发经验总结:掌握这5点,没有做不好的报表

    开发报表是数据分析师必备技能之一,目前市场上,绝大部分的数据分析师的工作时间都是用来做报表.报表是维持公司正常生产运营重要的一部分,企业的业务发展状况.财务状况等等都需要通过报表来监测. 然而很多企业 ...

  7. 快逸报表API直接生成v4统计图

    客户需求: 之前遇到过客户希望后台直接获取到快逸生成统计图,当时给客户解决的方法是通过先在快逸报表中设置统计图,后台运算后,获取到报表单元格的值,转化成ImageValue对象. 实现准备: 1:了解 ...

  8. 数据可视化模板_10分钟,做一份数据可视化分析报表

    做一份涵盖内容多.涉及数据量大的数据可视化分析报表要多久?10分钟够吗?如果奥威BI系列的分析软件会说话,恐怕要吐槽10分钟太多,5分钟足够.不说别的,论做智能数据可视化分析报表的效率,奥威BI系列软 ...

  9. 从腾讯入职到离职,我仅用了三周:做大数据的同事看不起做报表的

    这是很多年前的事情了,从腾讯入职到离职,我用了三周,理由很简单,做大数据的同事看不起做报表的,当然,我是做报表的那个. 做大数据的,就一定能做好报表吗? 报表是企业IT数据建设必不可少的一环,小到一张 ...

最新文章

  1. Makefile:条件编译
  2. c语言程序设计例题椭圆,2016年西安邮电大学理学院高级语言程序设计之C语言程序设计复试笔试仿真模拟题...
  3. Linux三大共享文件的方法
  4. 继承演练 动物 狗 哮天犬 c# 1613703354
  5. java进阶06 线程初探
  6. js ajax进度条,js 异步处理进度条
  7. webx框架升级springboot遇到的问题及解决方案
  8. 【Linux实验】LINUX系统的文件操作命令
  9. dcp7080d怎么加墨粉_兄弟7080打印机怎么加粉
  10. kotlin写的加解密算法,包括模式和填充方式
  11. 【DP练习】月饼盒(提高版)(vijos1255)
  12. 前端(Jinja2)
  13. 关于SV的一些知识1
  14. 一些英文词的标准缩写
  15. 飞书开发API的调用
  16. 【ES6闯关】Promise堪比原生的自定义封装then、catch、resolve、reject...
  17. 一个网卡如何设置两个ip,(如何加装网卡,两网卡或多网卡)
  18. 【IAR】IAR for MSP430添加头文件的方法
  19. java为什么要抛出异常_java抛出异常是怎么回事?
  20. 论文笔记--(HRNet)用于人类姿势估计的深度高分辨率表征学习(Deep High-Resolution Representation Learning for Human Pose Estima)

热门文章

  1. 猿学~Node.js背后的V8引擎优化技术
  2. java htmlunit 模拟输入_教大家用HtmlUnit实现程序模拟页面表单提交
  3. 美容饮料俘获女性用户,是边喝边美还是鸡肋养颜?
  4. pyqt5 保存文件夹_PyQt5 文件对话框
  5. Revit二次开发学习笔记
  6. 常用Office(Excel、PPT、Word)操作
  7. Canvas下落钢琴小游戏
  8. 怎么做护士长岗位竞聘演讲PPT课件?
  9. 2020-08-27 RPA uipath入门demo,超级鹰实现验证码自动登录,自动搜索和拉取数据到excel,robot和Orchestrator共同实现定时安排机器人执行任务。
  10. Linux环境下如何让可执行文件在shell中执行