介绍

对于绘制某些类型的数据来说,瀑布图是一种十分有用的工具。不足为奇的是,我们可以使用Pandas和matplotlib创建一个可重复的瀑布图。

在往下进行之前,我想先告诉大家我指代的是哪种类型的图表。我将建立一个维基百科文章中描述的2D瀑布图。

这种图表的一个典型的用处是显示开始值和结束值之间起“桥梁”作用的+和-的值。因为这个原因,财务人员有时会将其称为一个桥梁。跟我之前所采用的其他例子相似,这种类型的绘图在Excel中不容易生成,当然肯定有生成它的方法,但是不容易记住。

关于瀑布图需要记住的关键点是:它本质上是一个堆叠在一起的条形图,不过特殊的一点是,它有一个空白底栏,所以顶部栏会“悬浮”在空中。那么,让我们开始吧。

创建图表

首先,执行标准的输入,并确保IPython能显示matplot图。

?

1

2

3

4

5

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

%matplotlib inline

设置我们想画出瀑布图的数据,并将其加载到数据帧(DataFrame)中。

数据需要以你的起始值开始,但是你需要给出最终的总数。我们将在下面计算它。

?

1

2

3

index= ['sales','returns','credit fees','rebates','late charges','shipping']

data= {'amount': [350000,-30000,-7500,-25000,95000,-7000]}

trans= pd.DataFrame(data=data,index=index)

我使用了IPython中便捷的display函数来更简单地控制我要显示的内容。

?

1

2

from IPython.displayimport display

display(trans)

瀑布图的最大技巧是计算出底部堆叠条形图的内容。有关这一点,我从stackoverflow上的讨论中学到很多。

首先,我们得到累积和。

?

1

2

3

4

5

6

7

8

display(trans.amount.cumsum())

sales350000

returns320000

credit fees312500

rebates287500

late charges382500

shipping375500

Name: amount, dtype: int64

这看起来不错,但我们需要将一个地方的数据转移到右边。

?

1

2

3

4

5

6

7

8

9

10

blank=trans.amount.cumsum().shift(1).fillna(0)

display(blank)

sales0

returns350000

credit fees320000

rebates312500

late charges287500

shipping382500

Name: amount, dtype: float64

我们需要向trans和blank数据帧中添加一个净总量。

?

1

2

3

4

5

total= trans.sum().amount

trans.loc["net"]= total

blank.loc["net"]= total

display(trans)

display(blank)

?

1

2

3

4

5

6

7

8

sales0

returns350000

credit fees320000

rebates312500

late charges287500

shipping382500

net375500

Name: amount, dtype: float64

创建我们用来显示变化的步骤。

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

step= blank.reset_index(drop=True).repeat(3).shift(-1)

step[1::3]= np.nan

display(step)

0 0

0 NaN

0 350000

1 350000

1 NaN

1 320000

2 320000

2 NaN

2 312500

3 312500

3 NaN

3 287500

4 287500

4 NaN

4 382500

5 382500

5 NaN

5 375500

6 375500

6 NaN

6 NaN

Name: amount, dtype: float64

对于“net”行,为了不使堆叠加倍,我们需要确保blank值为0。

?

1

blank.loc["net"]= 0

然后,将其画图,看一下什么样子。

?

1

2

my_plot= trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="2014 Sales Waterfall")

my_plot.plot(step.index, step.values,'k')

看起来相当不错,但是让我们试着格式化Y轴,以使其更具有可读性。为此,我们使用FuncFormatter和一些Python2.7+的语法来截断小数并向格式中添加一个逗号。

?

1

2

3

4

5

6

def money(x, pos):

'The two args are the value and tick position'

return "${:,.0f}".format(x)

from matplotlib.tickerimport FuncFormatter

formatter= FuncFormatter(money)

然后,将其组合在一起。

?

1

2

3

4

my_plot= trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, title="2014 Sales Waterfall")

my_plot.plot(step.index, step.values,'k')

my_plot.set_xlabel("Transaction Types")

my_plot.yaxis.set_major_formatter(formatter)

完整脚本

基本图形能够正常工作,但是我想添加一些标签,并做一些小的格式修改。下面是我最终的脚本:

?

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

from matplotlib.tickerimport FuncFormatter

#Use python 2.7+ syntax to format currency

def money(x, pos):

'The two args are the value and tick position'

return "${:,.0f}".format(x)

formatter= FuncFormatter(money)

#Data to plot. Do not include a total, it will be calculated

index= ['sales','returns','credit fees','rebates','late charges','shipping']

data= {'amount': [350000,-30000,-7500,-25000,95000,-7000]}

#Store data and create a blank series to use for the waterfall

trans= pd.DataFrame(data=data,index=index)

blank= trans.amount.cumsum().shift(1).fillna(0)

#Get the net total number for the final element in the waterfall

total= trans.sum().amount

trans.loc["net"]= total

blank.loc["net"]= total

#The steps graphically show the levels as well as used for label placement

step= blank.reset_index(drop=True).repeat(3).shift(-1)

step[1::3]= np.nan

#When plotting the last element, we want to show the full bar,

#Set the blank to 0

blank.loc["net"]= 0

#Plot and label

my_plot= trans.plot(kind='bar', stacked=True, bottom=blank,legend=None, figsize=(10,5), title="2014 Sales Waterfall")

my_plot.plot(step.index, step.values,'k')

my_plot.set_xlabel("Transaction Types")

#Format the axis for dollars

my_plot.yaxis.set_major_formatter(formatter)

#Get the y-axis position for the labels

y_height= trans.amount.cumsum().shift(1).fillna(0)

#Get an offset so labels don't sit right on top of the bar

max = trans.max()

neg_offset= max / 25

pos_offset= max / 50

plot_offset= int(max / 15)

#Start label loop

loop= 0

for index, rowin trans.iterrows():

# For the last item in the list, we don't want to double count

if row['amount']== total:

y= y_height[loop]

else:

y= y_height[loop]+ row['amount']

# Determine if we want a neg or pos offset

if row['amount'] >0:

y+= pos_offset

else:

y-= neg_offset

my_plot.annotate("{:,.0f}".format(row['amount']),(loop,y),ha="center")

loop+=1

#Scale up the y axis so there is room for the labels

my_plot.set_ylim(0,blank.max()+int(plot_offset))

#Rotate the labels

my_plot.set_xticklabels(trans.index,rotation=0)

my_plot.get_figure().savefig("waterfall.png",dpi=200,bbox_inches='tight')

运行该脚本将生成下面这个漂亮的图表:

最后的想法

如果你之前不熟悉瀑布图,希望这个示例能够向你展示它到底是多么有用。我想,可能一些人会觉得对于一个图表来说需要这么多的脚本代码有点糟糕。在某些方面,我同意这种想法。如果你仅仅只是做一个瀑布图,而以后不会再碰它,那么你还是继续用Excel中的方法吧。

然而,如果瀑布图真的很有用,并且你需要将它复制给100个客户,将会怎么样呢?接下来你将要怎么做呢?此时使用Excel将会是一个挑战,而使用本文中的脚本来创建100个不同的表格将相当容易。再次说明,这一程序的真正价值在于,当你需要扩展这个解决方案时,它能够便于你创建一个易于复制的程序。

我真的很喜欢学习更多Pandas、matplotlib和IPothon的知识。我很高兴这种方法能够帮到你,并希望其他人也可以从中学习到一些知识,并将这一课所学应用到他们的日常工作中。

如何用python画数据图-利用Python绘制数据的瀑布图的教程相关推荐

  1. Python之matplotlib:利用matplotlib绘制八象空间三维图案例(知识点包括散点图、折线图、标注文字、图例、三维坐标)之详细攻略

    Python之matplotlib:利用matplotlib绘制八象空间三维图案例(知识点包括散点图.折线图.标注文字.图例.三维坐标)之详细攻略 目录

  2. 使用python画图表_利用Python绘制数据的瀑布图的教程

    介绍 对于绘制某些类型的数据来说,瀑布图是一种十分有用的工具.不足为奇的是,我们可以使用Pandas和matplotlib创建一个可重复的瀑布图. 在往下进行之前,我想先告诉大家我指代的是哪种类型的图 ...

  3. 利用python画曲线_利用Python绘制血药浓度-时间曲线——口服吸收一室模型

    血药浓度-时间曲线一般是通过拟合所测定的血药浓度点而画出来的,但是在某些时候,如阅读文献时,我们需要根据别人报道的PK参数来画出药时曲线.Python语法简单,拥有丰富的开源库,下面尝试通过Pytho ...

  4. 利用python画曲线_利用python画出AUC曲线的实例

    以load_breast_cancer数据集为例,模型细节不重要,重点是画AUC的代码.1XS免费资源网 直接上代码:1XS免费资源网 from sklearn.datasets import loa ...

  5. python画猫和老鼠_利用python如何实现猫捉老鼠小游戏

    python实现猫捉老鼠小游戏 首界面 开始游戏界面 然后键盘操作小老鼠上下左右移动,猫自己去追,当猫追上老鼠则游戏结束 这里用时3.2秒,最后将游戏时长与猫和老鼠都显示在主页面上 下面我把猫与老鼠的 ...

  6. 用python画猫和老鼠_利用python如何实现猫捉老鼠小游戏

    python实现猫捉老鼠小游戏 首界面 开始游戏界面 然后键盘操作小老鼠上下左右移动,猫自己去追,当猫追上老鼠则游戏结束 这里用时3.2秒,最后将游戏时长与猫和老鼠都显示在主页面上 下面我把猫与老鼠的 ...

  7. 利用QCustomePlot绘制热力图,瀑布图,频谱色图等

    有一个问题l困扰了我很多天,就是如何在QT中实现跟MATALB中imagesc函数一样能够根据二维数组存储的数据的大小自动绘制不同颜色的图形,就如下图所示的瀑布图. 由于自己是边学边做,没有经过系统学 ...

  8. 用python画皮卡丘-利用Python绘制萌萌哒的皮卡丘

    开发工具 Python版本:3.6.4 运用的一些简单的算法 注:想学习Python的小伙伴们 可以 进群:984632579 领取从0到1完整学习资料 视频 源码 精品书籍 一个月经典笔记和99道练 ...

  9. 用python画玫瑰花简单-利用python的turtle库画一朵简单的玫瑰花,并添加文字

    # 画玫瑰花的代码是参考网上的, 文字添加代码是自己写的,画布大小是自己设置的 import turtle # 设置画布大小 # turtle.screensize(canvwidth=None, c ...

  10. python画小猪_利用python画小猪佩奇

    importturtle as t t.pensize(4) t.hideturtle() t.colormode(255) t.color((255,155,192),"pink" ...

最新文章

  1. 关于欧盟的芯片法案,ASML是这样看的!
  2. 枚举法用于逻辑问题的处理
  3. 放开那三国3服务器维护,放开那三国3新服铤而走险开服时间表_放开那三国3新区开服预告_第一手游网手游开服表...
  4. day3----python变量与常量
  5. iOS多视图代码操作
  6. 牛客网SQL篇刷题篇(16-23)
  7. 产品经理如何避免被程序员打?
  8. 利用matlab使用窗函数,Matlab中窗函数的简单使用
  9. php laravel 中文手册,Laravel 5.6 中文离线手册文档(兼容5.5)(PDF版)
  10. 华为官方解锁工具_华为遭抵制无缘谷歌应用软件 海外手机留门自载被指风险...
  11. 世界陶瓷卫浴100强榜单发布!
  12. MSDC 4.3 接口规范(19)
  13. 小程序常用单位解释大全
  14. picpick截图工具截取滚动窗口只滚动一次就结束了解决办法
  15. javaweb企业员工考勤管理系统案例
  16. kitty猫的基因编码
  17. 如何做好用户故事地图?
  18. 穿越火线去除屏幕两边的矩形黑边
  19. lms matlab fft,lms算法的频域快速实现源程序有问题,点解
  20. QQ网页微信、QQ二维码登录原理分析(整理)

热门文章

  1. LSM树——放弃读能力换取写能力,将多次修改放在内存中形成有序树再统一写入磁盘,查找复杂度O(k*log(n)),结合bloom filter提高查找性能...
  2. 使用swagger作为restful api的doc文档生成——从源码中去提取restful URL接口描述文档...
  3. CSS 框模型——规定了元素框处理元素内容、内边距、边框和外边距的方式
  4. laravel5.6 分页样式目录
  5. Java 8中处理集合的优雅姿势——Stream
  6. 省略号和可变参数模板
  7. Chapter 3 Phenomenon——23
  8. 结构型模式/设计模式
  9. python No migrations to apply
  10. 第二十一节(数组概要, 一维、二维数组的声明和使用,数组的排序,数组的查找,)...