Python处理PDF与CDF

在拿到数据后，最需要做的工作之一就是查看一下自己的数据分布情况。而针对数据的分布，又包括pdf和cdf两类。

下面介绍使用python生成pdf的方法：

使用matplotlib的画图接口hist()，直接画出pdf分布；
使用numpy的数据处理函数histogram()，可以生成pdf分布数据，方便进行后续的数据处理，比如进一步生成cdf；
使用seaborn的distplot()，好处是可以进行pdf分布的拟合，查看自己数据的分布类型；

上图所示为采用3种算法生成的pdf图。下面是源代码。

from scipy import stats
import matplotlib.pyplot as plt
import numpy as np
import seaborn as snsarr = np.random.normal(size=100)# plot histogram
plt.subplot(221)
plt.hist(arr)# obtain histogram data
plt.subplot(222)
hist, bin_edges = np.histogram(arr)
plt.plot(hist)# fit histogram curve
plt.subplot(223)
sns.distplot(arr, kde=False, fit=stats.gamma, rug=True)
plt.show()

下面介绍使用python生成cdf的方法：

使用numpy的数据处理函数histogram()，生成pdf分布数据，进一步生成cdf；
使用seaborn的cumfreq()，直接画出cdf；

上图所示为采用2种算法生成的cdf图。下面是源代码。

from scipy import stats
import matplotlib.pyplot as plt
import numpy as np
import seaborn as snsarr = np.random.normal(size=100)plt.subplot(121)
hist, bin_edges = np.histogram(arr)
cdf = np.cumsum(hist)
plt.plot(cdf)plt.subplot(122)
cdf = stats.cumfreq(arr)
plt.plot(cdf[0])plt.show()

在更多时候，需要把pdf和cdf放在一起，可以更好的显示数据分布。这个实现需要把pdf和cdf分别进行归一化。

上图所示为归一化的pdf和cdf。下面是源代码。

from scipy import stats
import matplotlib.pyplot as plt
import numpy as np
import seaborn as snsarr = np.random.normal(size=100)hist, bin_edges = np.histogram(arr)
width = (bin_edges[1] - bin_edges[0]) * 0.8
plt.bar(bin_edges[1:], hist/max(hist), width=width, color='#5B9BD5')cdf = np.cumsum(hist/sum(hist))
plt.plot(bin_edges[1:], cdf, '-*', color='#ED7D31')plt.xlim([-2, 2])
plt.ylim([0, 1])
plt.grid()plt.show()

转载于:https://www.cnblogs.com/wangjingchn/p/7376470.html

Python处理PDF与CDF相关推荐

用python画熊_Python绘制PDF，CDF
PDF,CDF 正态分布的PDF和CDF对比: PDF:概率密度函数(probability density function) CDF : 累积分布函数 (cumulative distributi ...
Python自动化办公系列之Python操作PDF
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达输作者介绍: 大家可以叫我黄同学(博客名:Huang Supre ...
python怎么玩pdf_最全总结！聊聊 python 操作PDF的几种方法
作者:陈熹来源:早起Python 一.前言大家好,有关Python操作PDF的案例之前已经写过一个PDF批量合并,这个案例初衷只是给大家提供一个便利的脚本,并没有太多讲解原理,其中涉及的就是PDF ...
python pdf-浅谈Python处理PDF的方法
处理pdf文档第一. 从文本中提取文本第二. 创建PDF 两种方法 #使用PdfFileWriter import PyPDF2 pdfFiles = [] for filename in os. ...
疯狂python讲义视频百度云-疯狂Python讲义 PDF高清版附源码
内容简介本书全面,深入地介绍了Python编程的相关内容,大致可分为四个部分.*系统部分介绍了Python的基本语法结构,函数编程,类和对象,模块和包,异常处理等: 第二部分主要介绍Python常用 ...
python csv转excel_使用 Python 把 PDF 转为 CSV 和 Excel（一）
杭州国立公证处-公正摇号会不定期公布杭州各个楼盘的购房意向登记汇总表和摇号结果,里面公开的数据是很全面的,对于想要分析一波数据搞点事情的人来说,挺有吸引力的. 但当你兴冲冲地去官网下载完数据,一看傻 ...
python读取pdf表格_【Python 库】解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比...
pdf 是个异常坑爹的东西,有很多处理 pdf 的库,但是没有完美的. 一.pdfminer3k pdfminer3k 是 pdfminer 的 python3 版本,主要用于读取 pdf 中的文本. ...
python实现pdf转word详解_手把手|20行Python代码教你批量将PDF文件转为Word格式（包教包会）...
在日常工作或学习中,经常会遇到这样的无奈: "小任,你把这个PDF中的文件码出来发我" 倒霉,2M的PDF12点也完不了啊! 很多时候在学习时发现许多文档都是PDF格式,PDF格式 ...
python处理pdf提取指定数据_python从PDF中提取数据的示例
01 前言数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都 ...

Python处理PDF与CDF

Python处理PDF与CDF相关推荐

最新文章

热门文章