• 在概率密度直方图中,取到任一bin中的一个样本的平均概率,等于该箱的高度(纵坐标y值) × 宽度(横坐标间距δx) ÷ 该箱中样本个数(n_samples),而不是等于纵坐标y值;即此时面积表示概率之和,而不是纵坐标y值表示单一样本概率;如图1、图2所示。
  • 在累积分布直方图中,取到任一bin中的一个样本的平均概率,等于(该箱的高度(纵坐标y值) -左侧箱的高度)/ 该箱中样本个数;即此时纵坐标y值表示概率,但为累计概率;如图3、图4所示。
  • 当箱的个数等于样本总数,即每个箱中只有一个样本时,取到任意一个样本的概率,在概率密度直方图中,等于该箱的高度 × 宽度;在累积分布直方图中,等于该箱的高度-左侧箱的高度。此时累积分布直方图趋近于累计分布函数(CDF),但概率密度直方图中各箱顶点的连线通常并不趋近于概率密度函数(PDF),因为在各个横坐标处,也就是样本的取值处,通常会存在离群的样本取值概率,也就是离群的纵坐标值;只有对该直方图取一定程度的平滑曲线,才趋近于概率密度函数;如图5、图6所示。

图1 bins=4的概率密度直方图


图2 bins=40的概率密度直方图


图3 bins=4的累积分布直方图


图4 bins=40的累积分布直方图


图5 bins等于样本总数时的概率密度直方图


图6 bins等于样本总数时的累积分布直方图

  • 下面是绘图的代码:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_regressionX, y_origin = make_regression(n_samples=10000, noise=100, random_state=0)  # create data
y_scale = (y_origin + abs(y_origin.min())) / 200  # shift and shrink
y_exp = np.expm1(y_scale)  # exp(x) - 1
y_log = np.log1p(y_exp)  # log(1 + x)
print(sum(y_scale - y_log < 1e-10) == len(y_origin))  # y_log is equal to y_scalen_samples = 2500  # each bin has n_samples, so there are len(y_origin) / n_samples bins.f, (ax0, ax1) = plt.subplots(1, 2)
ax0.hist(y_origin, bins=int(len(y_origin)/n_samples), density=True, cumulative=True)
ax0.set_title('y_origin')
ax1.hist(y_scale, bins=int(len(y_scale)/n_samples), density=True, cumulative=True)
ax1.set_title('y_scale')
f.suptitle("Synthetic data", y=0.06, x=0.53)
f.tight_layout(rect=[0.05, 0.05, 0.95, 0.95])
plt.show()f, (ax0, ax1) = plt.subplots(1, 2)
ax0.hist(y_exp, bins=int(len(y_exp)/n_samples), density=True, cumulative=True)
# ax0.set_xlim([-100, 1700])
ax0.set_title('y_exp')
ax1.hist(y_log, bins=int(len(y_log)/n_samples), density=True, cumulative=True)
ax1.set_title('y_log')
f.suptitle("Synthetic data", y=0.06, x=0.53)
f.tight_layout(rect=[0.05, 0.05, 0.95, 0.95])
plt.show()

概率密度直方图(可看作PDF的在步长较大时的近似)与累积分布直方图(可看作CDF的在步长较大时的近似)相关推荐

  1. R语言plotly可视化:plotly可视化累积cumulative直方图(Cumulative Histogram)

    R语言plotly可视化:plotly可视化累积cumulative直方图(Cumulative Histogram) 目录 R语言plotly可视化:plotly可视化累积cumulative直方图 ...

  2. matlab 求概率密度,MATLAB如何使用pdf函数计算指定分布的概率密度函数

    MATLAB如何使用pdf函数计算指定分布的概率密度函数 [语法说明] Y=pdf('name',X,A) Y=pdf('name',X,A,B) Y=pdf('name',X,A,B,C) 字符串n ...

  3. OpenCV中颜色分布直方图及其应用

    1.图像直方图 直方图是对数据的集合 统计,并将统计结果分布于一系列预定义的 bins 中.这里的 数据 不仅仅指的是颜色灰度值 , 统计数据可能是任何能有效描述图像的特征(如梯度.方向等).特别地, ...

  4. matplotlib 直方图_掌握了Matplotlib这两个方法,轻松绘制出漂亮的直方图!

    一个直方图可以很好的把数据展示出来,Matplotlib库中plt.hist()函数用来展示直方图.这个函数的使用非常的简单,一行代码就可以创建一个直方图. 简单的直方图 import numpy a ...

  5. [转载] 【数据处理】 python 极速极简画图——频数(率)分布直方图

    参考链接: Python | 使用XlsxWriter模块在Excel工作表中绘制面积图 说明   当我们拿到数据的时候,第一时间就是想知道数据的特点,然鹅单个的数值如平均数.中位数仍不够直观,我们更 ...

  6. A项目之三:价格与销量分布直方图

    价格分布直方图 先搭建Flask框架,让图形能够在网页呈现出来: from flask import Flask,render_template app = Flask(__name__)@app.r ...

  7. python 绘制分布直方图_统计学中常见的4种抽样分布及其分布曲线(Python绘制)...

    现代统计学奠基人之一.英国统计学家费希尔(Fisher)曾把抽样分布.参书估计和假设检验看作统计推断的三大中心内容. 统计学中,需要研究统计量的性质,并评价一个统计推断的优良性,而这些取决于其抽样分布 ...

  8. ansys时间步长怎么设置_在 ANSYS Workbench 的动态、静态仿真中,设置子步长(时间步长)的目的分别是什么?_学小易找答案...

    [计算题]塔架静力-地震响应谱分析 Course-Work8_塔架响应谱分析.pdf [简答题]简述虚位移原理与最小势能原理? [简答题]如何对草图中几何模型进行尺寸标注? [简答题]记3-5个单词 ...

  9. python绘制直方图根据不同分类_如何在python中绘制具有多个类别的直方图

    下面是一个使用Matplotlib中的^{}为每个箱子提供多个条的直方图示例:import numpy as np import matplotlib.pyplot as plt length_of_ ...

最新文章

  1. 80+机器学习数据集,还不快收藏
  2. python下载图片
  3. Dubbo 源码分析 - 集群容错之 Cluster
  4. name optimize is not defined 怎么解决_Web前端:怎么在JavaScript中比较对象?
  5. 选择屏幕设置默认日期
  6. 蓝桥杯 ADV-202 算法提高 最长公共子序列
  7. nssl1452-排行榜【数论】
  8. 5.1.2 SELECT+INNER JOIN读取数据
  9. [golang 易犯错误] golang 局部变量初始化:=的陷阱
  10. linux下载文件命令
  11. ae万能弹性表达式_18种常用AE表达式解析【建议收藏】
  12. U盘存储设备有回收站吗及如何快速恢复u盘数据
  13. 【搞个事】主页被劫持,改注册表进行修复
  14. 360cdn能挡住cc攻击_如何合理利用CDN来防御部分恶意刷量和CC攻击
  15. nohup和的使用/21是什么意思/怎么关闭nohup挂起的程序
  16. JavaScript对象、基本类型和字面值之间的区别
  17. Tiny6410学习移植usb无线网卡(一)
  18. 国内第一创作平台大佬,教你如何写好一篇技术博客?
  19. 如何用javaweb实现网上招聘系统、基于SSM+mysql的校园大学生兼职招聘平台
  20. 云服务卸载MySQL

热门文章

  1. 解决Unity3D 创建UWP应用出现Exception: Failed to build Visual Studio project using arguments
  2. CUDA矩阵运算之cuBLAS库的常用函数
  3. ios 表情符号 键盘_iOS中表情键盘的完整实现方法详解
  4. EOS区块链构建的班费缴纳系统
  5. Wise Care 365 Pro 4中文版(系统优化工具) v4.66.450
  6. C#相机采集小程序(参照pylon案例库实现)
  7. 机动应急指挥系统_便携式应急指挥系统
  8. 内存或磁盘空间不足,MICROSOFT EXCEL/WORD 无法再次打开或保存任何文档。
  9. 淡雅灰低三角形背景几何风年终总结商务通用ppt模板
  10. JSON,JSONArray以及转换Java Bean