齐夫定律(英语:Zipf's law,IPA英语发音:/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律。

它可以表述为:

在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。

所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,

而出现频率第二位的单词则是出现频率第四位的单词的2倍。

这个定律被作为任何与幂定律概率分布有关的事物的参考。

目录

  • 1 例子
  • 2 遵循该定律的现象
  • 3 参见
  • 4 延伸阅读
  • 5 外部链接

例子

最简单的齐夫定律的例子是“1/f function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。

在Brown语料库中,“the”、“of”、“and”是出现频率最前的三个单词,其出现的频数分别为69971次、36411次、28852次,大约占整个语料库100万个单词中的7%、3.6%、2.9%,其比例约为6:3:2。大约占整个语料库的7%(100万单词中出现69971次)。满足齐夫定律中的描述。仅仅前135个字汇就占了Brown语料库的一半。

齐夫定律是一个实验定律,而非理论定律,可以在很多非语言学排名中被观察到,例如不同国家中城市的数量、公司的规模、收入排名等。但它的起因是一个争论的焦点。齐夫定律很容易用点阵图观察,坐标分别为排名和频率的自然对数(log)。比如,“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。

遵循该定律的现象

  • 单词的出现频率:不仅适用于语料全体,也适用于单独的一篇文章
  • 网页访问频率
  • 城市人口
  • 收入前3%的人的收入
  • 地震震级
  • 固体破碎时的碎片大小

参见

  • 经验公式

====================================

Zipf Distribution

The Zipf distribution, sometimes referred to as the zeta distribution, is a discrete distribution commonly used in linguistics, insurance, and the modelling of rare events. It has probability density function

 

where is a positive parameter and is the Riemann zeta function, and distribution function

 

where is a generalized harmonic number.

The Zipf distribution is implemented in the Wolfram Language as ZipfDistribution[rho].

The th raw moment is

 

giving the mean and variance as

The distribution has mean deviation

where is a Hurwitz zeta function and is the mean as given above in equation (4).

SEE ALSO: Zipf's Law

CITE THIS AS: Weisstein, Eric W. "Zipf Distribution." From MathWorld--A Wolfram Web Resource. http://mathworld.wolfram.com/ZipfDistribution.html

Zipf's Law

In the English language, the probability of encountering the th most common word is given roughly by for up to 1000 or so. The law breaks down for less frequent words, since the harmonic series diverges. Pierce's (1980, p. 87) statement that for is incorrect. Goetz states the law as follows: The frequency of a word is inversely proportional to its statistical rank such that

where is the number of different words.

Theoretical review

Zipf's law is most easily observed by plotting the data on a log-log graph, with the axes being log (rank order) and log (frequency). For example, the word "the" (as described above) would appear at x = log(1), y = log(69971). It is also possible to plot reciprocal rank against frequency or reciprocal frequency or interword interval against rank.[1] The data conform to Zipf's law to the extent that the plot is linear.

Formally, let:

  • N be the number of elements;
  • k be their rank;
  • s be the value of the exponent characterizing the distribution.

Zipf's law then predicts that out of a population of N elements, the frequency of elements of rank k, f(k;s,N), is:

f ( k ; s , N ) = 1 / k s ∑ n = 1 N ( 1 / n s ) {\displaystyle f(k;s,N)={\frac {1/k^{s}}{\sum _{n=1}^{N}(1/n^{s})}}}

转载于:https://www.cnblogs.com/sddai/p/6081447.html

齐夫定律, Zipf's law,Zipfian distribution相关推荐

  1. 本福特定律和齐夫定律是一回事吗

    关于本福特定律的简单解释和推导,参见: https://zhuanlan.zhihu.com/p/440462854 思考本福特定律,与齐夫定律对照,它们之间似乎可以相互推导,是真的吗? 本福特定律说 ...

  2. python作业|齐夫定律、平均多义性

    题目(1):P82.第23题. 齐夫定律:f(w)是自由文本中词w的频率.假设一个文本中的所有词都按照它们的频率排名,频率最高的排在最前面.齐夫定律指出一个词类型的频率与它的排名成反比(即f*r=k, ...

  3. 程序员应知必会的思维模型之 12 席克定律 (Hick‘s Law or Hick-Hyman Law)

    席克定律 (Hick's Law or Hick-Hyman Law) 决策时间和可供选择的选项数量呈对数增长关系. – William Edmund Hick and Ray Hyman 解释 在下 ...

  4. Zipf's law

    Zipf's law(中文似乎叫 齐普夫定律) 这是自然语言处理领域的一个有趣的定律,其实称为规律更合适,因为这是一个经验性的结果,是通过统计数据得出来的近似的规律. 它的定义有些绕口,就是说,在一个 ...

  5. [电路]3-基尔霍夫定律

    [电路]系列文章目录 1-发出功率和吸收功率关系 2-独立源和受控源 3-基尔霍夫定律 文章目录 [电路]系列文章目录 一.基尔霍夫定律 1.基尔霍夫电流定律(KCL) 2.基尔霍夫电压定律(KVL) ...

  6. 程序员应知必会的思维模型之 18 林纳斯定律 (Linus‘s Law)

    林纳斯定律 (Linus's Law) 足够多的眼睛,就可让所有问题浮现.–Eric S. Raymond 简单地说,能够看到问题的人越多,有人解决过相关的问题或事情的可能性就越高. 最初该定律是用来 ...

  7. 程序员应知必会的思维模型之 25 普特定律 (Putt‘s Law)

    普特定律 (Putt's Law) 技术由两类人主导,一类是纯粹的管理人员, 一类是纯粹的技术人员. 普特定律常常遵循普特推论: 每一个技术层次,假以时日,能力将逆转. 这些结论表明,由于各种选择标准 ...

  8. 程序员应知必会的思维模型之 19 梅特卡夫定律 (Metcalfe‘s Law)

    梅特卡夫定律 (Metcalfe's Law) 在网络理论中,系统的价值约等于系统用户数的平方. 这个定律基于一个系统中可能的连接对数量,并且与里德定律 (Reed's Law) 十分相近.奥德利兹科 ...

  9. 程序员应知必会的思维模型之 21 墨菲定律 (Murphy‘s Law / Sod‘s Law)

    墨菲定律 (Murphy's Law / Sod's Law) 凡是可能出错的事就一定会出错 出自 爱德华·A·墨菲 , 墨菲定律 说明了如果一件事有可能出错,那么就一定会出错. 这是一句开发人员间的 ...

最新文章

  1. 今天聊聊分布式锁 No.86
  2. Senparc.Weixin.MP SDK 微信公众平台开发教程(十一):高级接口说明
  3. c语言画图 钟表模拟程序,图形模拟时钟C语言课程设计
  4. ROS学习之roslaunch的node标签
  5. java和python的语法有什么区别?
  6. 【渝粤题库】国家开放大学2021春2402外国文学题目
  7. anaconda3安装_Anaconda3软件安装教程
  8. java递归解决百元百鸡_JS计算输出100元钱买100只鸡问题的解决方法
  9. Yii2性能优化之:缓存依赖
  10. Ashampoo® Snap 4 截图工具 + 有效注册码
  11. SNORT3规则编写
  12. 常用性能测试工具有哪些
  13. 【论文分享】ARBITRAR: User-Guided API Misuse Detection
  14. 309 Best Time to Buy and Sell Stock with Cooldown
  15. Reduce-Rank Regression通俗解释及与其他降维方法的关系
  16. axios 官方指南翻译
  17. 计算机网络中的搜索引擎是指根据一定的策略,搜索引擎的常用使用技巧
  18. elementui自定义进度条形状
  19. 结构体运算符与取余_c语言取余(c语言去整和取余)
  20. 【论文翻译】Fully Convolutional Networks for Semantic Segmentation_2

热门文章

  1. 【已解决】Jena配置问题
  2. php重定向高数,基于PHP的高等数学在线测试软件
  3. vue中字符串和数值互转
  4. 用jquery的each方法遍历json对象
  5. Unity实时运动残影特效
  6. Android 性能测试及弱网测试要点
  7. RoboMongo简单安装和操作
  8. python 数据降噪
  9. 金融时间序列分析_写给你的金融时间序列分析:初级篇
  10. matlab设计滤波器的工具箱,matlab工具箱设计滤波器