原文:《Power-law distribution in empirical data》

1. Introduction

有些分布可以很好的描述,比如成年男性的身高,某物体的重量等,它们可以用典型值可平均值来进行描述。但并不是所有的分布都服从该模型。在这些分布中 power law 多年来因其数学性质(有时会导致令人惊讶的物理结果)以及在各种自然和人为现象中出现而受到特别关注。例如,城市人口、地震强度和停电的规模都被认为具有幂律分布。诸如此类的数量不能很好地用它们的典型值或平均值来描述。

从数学上讲,如果 x 从概率分布中得到,它就服从幂律:

其中 α 是分布的常数参数,称为指数(exponent)或尺度参数(scaling parameter)。尺度参数通常在2 < α < 3的范围内,但也有例外。

在实践中,很少有经验现象对所有的 x 值都服从幂律。幂律通常只适用于大于某个最小的值。在这种情况下,我们说分布的尾部遵循幂律。

2. Definition

Power-law distributions 有两种基本形式:连续分布支配连续实数,而离散分布所关注的量只能取一组离散值,通常是正整数。

设 x 代表我们感兴趣的量的分布。

连续幂律分布是由概率密度 p(x) 所描述的一种分布:

其中 C 为观测值,X 为归一化常数。显然,这个密度在 x→0 时发散,所以公式(2.1)不能适用于所有 x≥0 的情况,因此幂律行为必须有一个下界。用来表示这个边界。然后,如果 α > 1,计算归一化常数很简单,则:

离散情况下,x 只能取一组离散的值。原文中,只考虑整数值具有概率分布形式的情况

这个分布在 0 处同样发散,所以在幂律的情况必须有一个下界。通过计算归一化常数,得到

其中

是广义的或 Hurwizt zeta 函数。

在许多情况下,考虑幂律分布变量的互补累积分布函数(complimentary cumulative distribution function)或 CDF 是有用的,我们将其表示为 P(x),对于连续和离散情况,其定义为

例如,在连续的情况下

离散情况下

由于连续分布的公式(如式(2.2))往往比离散分布的公式简单,为了数学上的方便,通常将离散幂律行为近似为连续分布的幂律行为。一个相对可靠的方法是把整数幂律当作x的值是由连续幂律生成的,然后四舍五入到最接近的整数。这种方法在许多应用中给出了相当准确的结果。然而,其他的近似,如截断(向下舍入),或简单地假设在离散和连续的情况下产生整数值的概率是成比例的,会得到糟糕的结果,应该避免。

3. Fitting power laws to empirical data.

现在转向本文的第一个主要目标,幂律形式的经验分布的正确拟合。对遵循幂律的经验分布的研究通常会给出一些尺度参数 α 的估计,偶尔也会给出尺度区域的下界的估计。本节描述一种估计幂律分布参数的一般精确方法。

3.1. Estimating the scaling parameter

首先考虑尺度参数 α 的估计。正确估计 α 需要数据中幂律行为的下界的值。

对观测数据拟合幂律分布等参数化模型的选择方法是极大似然法,它可证明在大样本容量的极限下给出精确的参数估计。假设我们的数据来自于时恰好遵循幂律的分布,我们可以导出离散和连续情况下尺度参数的极大似然估计(MLEs)。

 连续情况的MLE

其中时 x 的观测值。在这里和其他地方,我们使用“带帽”的符号,如来表示来自数据的估计;不戴帽子的符号表示的是真正的值。由似然极大值的宽度推导出的标准误差

其中,高阶校正是正的。

(在这些计算中假设 α > 1,因为 α ≤ 1 的分布是不可归一化的,因此在自然界中不会发生。如果 x 的范围是有界的,则概率分布可能为且 α ≤ 1 上面有一些截止值,但需要不同的最大似然估计量来拟合这样的分布。)

当 x 是一个离散整数变量时,MLE 就不那么直接。对于处理了特殊情况,表明 α 的适当估计量由超越方程的解给出

,一个类似的等式成立,但 zeta 函数被广义 zetas 函数代替:

撇(prime)表示对第一个参数的微分。在实践中,的评价要求我们对该方程进行数值求解。或者,可以通过对似然函数本身或其对数的直接数值最大化来估计 α (通常更简单):

为了求得离散情况下标准误差的估计,做一个二阶近似对数似在其最大和标准差的高斯形式可能为错误估计(一般定理的方法合理的样本量大,最大似然estimates-see的行为)。结果是:

一旦有,就很容易计算了。或者,Eq.(3.2) 对 x 和产生相同的结果。

虽然在离散情况下没有精确的封闭表达式,但可以使用第 2 节中提到的方法导出一个近似表达式,其中真实的幂律分布整数近似为四舍五入到最接近的整数的连续实数。结果是:

该表达式比精确的离散MLE更容易计算,在不需要高精度的情况下非常有用。

Power law and Power law distribution(幂律和幂律分布)相关推荐

  1. Power BI与Power Query、Power Pivot 是什么关系?

    搞不清楚Power BI与Power Query.Power Pivot是什么关系?看这篇文章就够了. 刚开始学习PowerBI的时候,总是能碰到Power Query和Power Pivot这两个词 ...

  2. ACPI Spec Chapter 10 Power Source And Power Meter Devices

    目录 前言 一.Smart Battrey Subsystems 1. ACPI Smart Battery Status Change Notification Requirements 1.1 S ...

  3. [Power BI] 认识Power Query和M语言

    数据清洗,可理解为数据整理,对从各类数据源导入的数据,通过一定的方法(如数据的增删改.转换.逆透视.合并等)进行处理,整理成符合要求的数据,然后加载到数据模型中,进行数据可视化 在Power BI中, ...

  4. 程序员应知必会的思维模型之 21 墨菲定律 (Murphy‘s Law / Sod‘s Law)

    墨菲定律 (Murphy's Law / Sod's Law) 凡是可能出错的事就一定会出错 出自 爱德华·A·墨菲 , 墨菲定律 说明了如果一件事有可能出错,那么就一定会出错. 这是一句开发人员间的 ...

  5. 程序员应知必会的思维模型之 12 席克定律 (Hick‘s Law or Hick-Hyman Law)

    席克定律 (Hick's Law or Hick-Hyman Law) 决策时间和可供选择的选项数量呈对数增长关系. – William Edmund Hick and Ray Hyman 解释 在下 ...

  6. 【数理逻辑】命题逻辑 ( 命题逻辑推理 | 推理的形式结构 | 推理定律 | 附加律 | 化简律 | 假言推理 | 拒取式 | 析取三段论 | 假言三段论 | 等价三段论 | 构造性两难 )

    文章目录 一.推理的形式结构 二.推理定律 1.附加律 2.化简律 3.假言推理 4.拒取式 5.析取三段论 6.假言三段论 7.等价三段论 8.构造性两难 一.推理的形式结构 推理的形式结构 前提 ...

  7. 利用AnyLogic软件搭建多智能体模型验证Lanchester方程线性律和平方律

    利用AnyLogic软件搭建多智能体模型验证Lanchester方程线性律和平方律 写在前面 这篇文档是一篇备忘文档.记录了我使用AnyLogic搭建智能体群,并用其验证Lanchester方程线性律 ...

  8. 二分幂,快速幂,矩阵快速幂,快速乘

    前言 二分幂,快速幂,矩阵快速幂在算大指数次方时是很高效的. 求 a^n 的值是多少?n是1到10^18次方的一个整数. 求一个数的n次方,朴素的算法就是直接for循环,一遍一遍的乘,a*a*a*a* ...

  9. 二项分布_贝塔分布(multivariate Beta distribution)_多项分布_狄利克雷分布(Dirichlet distribution)_贝叶斯理论公式浅述

    二项分布_贝塔分布(multivariate Beta distribution)_多项分布_狄利克雷分布(Dirichlet distribution)_贝叶斯理论公式浅述 参考书籍<统计学习 ...

最新文章

  1. 某程序员哀叹:连续帮三任女朋友进360,京东等互联网大厂,进去后却都惨遭分手!...
  2. switch( )的经典引用
  3. 玩转Google开源C++单元测试框架Google Test系列(gtest)之四 - 参数化
  4. 为什么学好计算机就必须学好汇编?
  5. IE或Chrome浏览器玩Xbox游戏能实现吗
  6. 多线程新浪新闻搜索网络爬虫-基于关键字
  7. 两个前置摄像头_W21 5G性能篇 | 五摄像头组合,洞悉画面之美
  8. hibernate 继承映射(二)
  9. Linux与Ubuntu上SQL Server 2019
  10. 计算时间的20个常用代码段
  11. Excel 英文切换大小写;Excel 中去除重复项
  12. VHDL实现矩阵键盘
  13. php 公众号 发送图片,如何把图片发送到微信公众号上?
  14. 经济基础知识(中级)【9】
  15. 1、 域名系统的主要功能是什么?互联网的域名结构是怎样的?域名系统中的本地域名服务器、根域名服务器、顶级域名服务器以及权限域名服务器有何区别?2、 假定要从已知的URL获得一个万维网文档。若该万维网服
  16. PEST分析顺丰服务需求_顺丰内外部环境分析.doc
  17. 【Unity——阴影实现基本原理】
  18. 法官的假发是用来吓人的?
  19. Hwclock用法介绍
  20. 第六讲 幂级数的收敛半径和收敛域

热门文章

  1. excel表计算机实践操作,Excel电子表格计算机实践任务书.ppt
  2. 不再封控,各高校要如何开展教学
  3. centos7.2安装中出现的各种问题
  4. 阿里的“无用”和“有用”
  5. 怎么安装苹果系统mac os x虚拟机
  6. c++ 构造函数 which is of non-class type奇葩问题
  7. python数据处理7: matplotlib绘图保存图片深入
  8. 04 第三章 命题逻辑的推理理论
  9. C# 调用迅雷 7 迅雷下载开放引擎
  10. 唤醒计算机教案,智慧课堂教学软件常态化丨镇江中山路实验小学用 智慧“唤醒”课堂...