看文章的时候看到互联网上有些部分符合zipf分布,挺都没听说过,于是查下。

查了些资料,发现是哈佛的语言学家zipf在研究语料库的时候发现的,所以也叫齐普夫定律,按照单词在语料库中出现的次数排序,则该单词的排序数与其在语料库中出现频数成反比,或者说,二者乘积为一个常数。

其公式为:P(r) = C / r^α

这里 r 表示一个单词的出现频率的排名,P(r)表示排名为r的单词的出现频率。单词频率分布中 C约等于0.1, α约等于1。

这说明在英语单词中,只有极少部分的词被经常使用,而绝大部分词很少被使用。

如果按照出现频率排序,则第二常见的单词出现频率是第一常见单词出现频率的1/2,第三常见单词为第一常见单词出现频率的1/3,第三常见单词为第一常见单词出现频率的1/n。

比如,在 Brown 语料库中,“the”是最常见的单词,它在这个语料库中出现了大约7%(100万单词中出现69971次)。正如齐夫定律中所描述的一样,出现次数为第二位的单词“of”占了整个语料库中的3.5%(36411次),之后的是“and”(28852次)。仅仅135个字汇就占了Brown 语料库的一半。

这样延伸出来,就是常见的“80/20法则”。80%的资源掌握在20%的人手里。前20%的单词出现频率占所有单词的80%。

查资料发现,长尾分布就是齐普夫定律。

长尾分布在生活中应用的例子太多,比如,下载网络音乐,热门歌曲占据了绝大部分的下载量,冷门歌曲下载虽少,但下载曲线并不是迅速下降为零,而是比较稳定的维持在一定的水平上。也就是说,长尾虽然小,但稳定、持久、并不为零,这样下来,其销量(曲线轮廓所包围的面积)并不小。长尾理论也是利用这样的特性而提出的。

这样有两个问题,一是什么样的分布是迅速降为零的?二是,长尾分布什么时候会出现。

问题一比较好回答,在zipf分布中,提高α即可使分布迅速降低为零。或者有其他方法构造分布函数也可以。

对于问题二而言,查到的文章里大部分只讲了分布是什么、公式是什么、应用到什么情景(如歌曲或软件的下载、语料库中的统计、国家GDP或个人收入分布),但对于所应用的情景却没有抽象出一个共同的特点。

不过在文章长尾分布、幂律的产生机制和西蒙模型中提到:

长尾分布是由选择来源的丰富性(如大量供下载的曲目)造成的。一旦多样性选择需求不再因为来源匮乏而受到限制,长尾现象便会自然发生。

也就是说,必须来源丰富到所有需求不因来源匮乏而不被满足,这时就符合长尾分布。即:人得需求是符合长尾分布的(对热门东西的需求占据大部分,但还有持续不为零的小众需求),但这种需求,在资源不够丰富、匮乏时会受到限制,从而使长尾曲线受到遏制。直到来源丰富,选择被放开,才会将长尾分布的需求表现出来。

另外,上面提到的“80/20法则”是Pareto提出来的,也有以他名字命名的分布。

19世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20法则,即20%的人口占据了80%的社会财富。个人收入X不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系:P[X≥k]~x^(-k),上式即为Pareto定律。

在我看来,这就是zipf分布的推广,相当于对zipf分布曲线面积进行积分。

而zipf分布和pareto分布,两者又都是幂律分布。

Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布;还有其它形式的幂律分布,像名次——规模分布、规模——概率分布,其通式可写成y=c*x^(-r),其中x,y是正的随机变量,c,r均为大于零的常数。这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。

对上式两边取对数,可知lny与lnx满足线性关系,也即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。

参考资料:

1. 幂律分布和Zipf定律

2. 长尾分布、幂律的产生机制和西蒙模型

3. 常见的数据分布(正态分布,ZIPF分布,偏态分布)

4. 齐夫定律

5. Zipf定律

ZIPF分布、PARETO分布和幂律分布相关推荐

  1. 幂律分布 计算机科学,Numpy 发现幂律分布

    我们现在要假设自己在运作一只对冲基金.让我们沉浸到这个假设场景中,你现在是资本市场中的一名精英了. 幂律分布存在于众多领域之中,更多相关信息参见http://en.wikipedia.org/wiki ...

  2. matlab计算幂律分布,Matlab拟合曲线之幂律分布

    收集的问题: 如何用matlab来拟合幂律分布,怎样将拟合值和实际值进行对比,放在一个图中,又如何检验实际数据是否符合拟合函数. 如果不符合,如何来直接判断实际数据服从什么样的函数分布呢 在MATLA ...

  3. python幂函数无序分布_Python:从幂律分布中生成随机数

    numpy.random和scipy.stats中定义的幂律分布在数学意义上没有为负a定义,如 this question的答案中所解释的那样:由于奇点为零,它们不可规范化.所以,遗憾的是,数学说'不 ...

  4. 用幂律分布研究工资收入

    本文系即将出版的<机器学习数学基础>中的"第5章概率"的"5.3.3 连续型随机分布"一节中"幂律分布"节选.本书将由电子工业出 ...

  5. 幂律分布图matlab代码,关于幂律分布,你还应该知道如何用代码实现!| 集智百科...

    今天我们继续学习幂律分布的基本概念--幂律概率分布,以及如何用代码实现幂律分布.内容来自集智百科,集智百科是复杂系统领域的百科全书,涵盖复杂系统领域的基本概念(持续完善中). 我们正在组织撰写翻译相应 ...

  6. 逆幂律模型_为“成功”建模:幂律分布

    我是你的专属评论员,"每年读300本书.读书不挑食"的轩辕. 今天我们继续来评论<模型思维>这本书. 昨天和前天,我们分别为"人脉"和"股 ...

  7. 幂律分布(python)

    幂律分布 1.幂律分布 首先要说的是中心极限定理--在复杂的多因素情况下,只要个体相互独立,集体效果就应该是正态分布.然而实际运用中,尤其是金融中,更多面对的是尖峰胖尾现象,比如下面这幅图描述的是标普 ...

  8. Python数据可视化系列之幂律分布

    1.幂律分布 首先要说的是中心极限定理--在复杂的多因素情况下,只要个体相互独立,集体效果就应该是正态分布.然而实际运用中,尤其是金融中,更多面对的是尖峰胖尾现象,比如下面这幅图描述的是标普500指数 ...

  9. 【转载】关于幂律分布的一个笔记

    关于幂律分布的一个笔记 原文转自:http://blog.sina.com.cn/s/blog_55954cfb0100ps89.html 0:题外话或补记 最早知道二八法则,还是一本介绍犹太民族杰出 ...

  10. 关于幂律分布的一个笔记_哈克_新浪博客

    关于幂律分布的一个笔记_哈克_新浪博客 关于幂律分布的一个笔记     (2011-03-02 18:12:27)     转载▼     标签:     幂律     二八法则     杂谈     ...

最新文章

  1. python 图像计算方位角
  2. php和android选择器,Android_android 字体颜色选择器(ColorPicker)介绍,primary_text_yellow.xml 复制代码 代 - phpStudy...
  3. amd一点也不yes_A粉的狂欢,AMD显卡也翻身了,3A平台不再是笑话了,AMD YES!
  4. VMware vSAN紧盯虚拟化应用
  5. Ubuntu文件夹有锁标志(去除) 命令打包解包
  6. flask 配置静态文件模板文件
  7. ()IT 职场经验)一位10年Java工作经验的架构师的经验分享,感觉很受用。
  8. 树莓派 pcf8591 AD转换模块使用
  9. ftok函数的作用:
  10. 密码学中的数学基础(一)
  11. c语言对编程对作用,c语言编程心得体会
  12. jop怎么读音英语怎么说_job是什么意思_job的翻译_音标_读音_用法_例句_爱词霸在线词典...
  13. 十目监测:第三方广告监测系统如何识别广告虚假流量?
  14. 论文《Depth Estimation From a Light Field Image Pair With a Generative Model》学习
  15. android ppt放映_android 代码打开ppt文件有什么办法
  16. r6220 虚拟服务器,网件r6220设置页面打不开 其实很简单
  17. Docker构建镜像
  18. 查找——1、折半查找法
  19. 如何正确通过 C++ Primer 学习 C++?
  20. java使用mangodb进行多条件组合查询

热门文章

  1. POI实现合并单元格
  2. Linux查看占用内存的进程
  3. 抖音上热门规则 视频md5码查看器
  4. js+css改造jsmind实现思维导图 | 树状图
  5. 反恐精英代码_Steam永久降价通知!绝地求生史低促销!CS:GO源代码泄漏!
  6. 检查pdf字体是否全部嵌入
  7. QQ被异地登录冻结,求解冻。有偿
  8. 微信H5开发-采坑记
  9. php锐浪开发,解析Excel文件生成Grid++Report锐浪模版
  10. dell 恢复介质_戴尔介质恢复选项