简单地说,Zipf发现一个词在一个有相当长度的语篇中的等级序号(该词在按出现次数排列的词表中的位置,他称之为rank,简称r)与该词的出现次数(他称为frequency,简称f)的乘积几乎是一个常数(constant,简称C)。用公式表示,就是r × f = C。例如,他根据M. L. Hanley(1937)中有关James Joyce Ulysses的用词数据,从中抽取了第10、20等序号的词,其序号(r)与在书中的出现次数(f)的乘积分别如下表的III栏。除了最后三个数字出入稍大一点,其他的都在26,000左右。而且,Zipf发现常数C乘以10跟该书的实际总词数260,430很接近,如IV栏所示。

I

Rank

(r)

II

Frequency

(f)

III

Product of I and II

(r × f = C)

IV

Theoretical Length of Ulysses

(C × 10)

10

2,653

26,530

265,300

20

1,311

26,220

262,200

30

926

27,780

277,800

40

717

28,680

286,800

50

556

26,500

278,000

100

265

26,500

265,000

200

133

26,600

266,000

300

84

25,200

252,000

400

62

24,800

248,000

500

50

25,000

250,000

1,000

26

26,000

260,000

2,000

12

24,000

240,000

3,000

8

24,000

240,000

4,000

6

24,000

240,000

5,000

5

25,000

250,000

10,000

2

20,000

200,000

20,000

1

20,000

200,000

29,899

1

29,899

298,990

r × f = C这个公式还说明,一个词的出现次数跟它的等级序号成反比。出现次数越多,序号越小。出现次数最多的排第一,出现次数最少的排最后。这原本没有什么特别的:序号就是根据出现次数排的。但它们的乘积是常数这一点,却使得分别以词的序号和出现次数为轴线的双对数表(doubly logarithmic chart)呈现极大的规律性——它几乎是一条45度的直线。

Zipf's law分析相关推荐

  1. 齐夫定律, Zipf's law,Zipfian distribution

    齐夫定律(英语:Zipf's law,IPA英语发音:/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律. 它可以表述为: 在 ...

  2. Zipf's law

    Zipf's law(中文似乎叫 齐普夫定律) 这是自然语言处理领域的一个有趣的定律,其实称为规律更合适,因为这是一个经验性的结果,是通过统计数据得出来的近似的规律. 它的定义有些绕口,就是说,在一个 ...

  3. 大数据分析笔记 (6) - 文本分析 (Text Analysis)

    大数据分析笔记 - 文本分析 总览 文本分析步骤 挑战 第一步:收集原始文本数据(Collecting Raw Text) 第二步:表示文本 (Representing Text) 第三步:词频-逆文 ...

  4. NXP(Freescale) QorIQ T2080启动流程分析

    作者 QQ群:852283276 微信:arm80x86 微信公众号:青儿创客基地 B站:主页 https://space.bilibili.com/208826118 参考 ARM U-Boot S ...

  5. 幂次法则power law

    幂次法则分布和高斯分布是两种广泛存在的数学分布.可以预测和统计相关数据. pig中用其处理数据倾斜,实现负载均衡. 个体的规模和其名次之间存在着幂次方的反比关系,R(x)=ax(-b次方) 其中,x为 ...

  6. MIT开放式课程“自然语言处理”介绍

    MIT开放式课程"自然语言处理"介绍 发表于 2009年01月2号 由 52nlp 从订阅的Google快讯上知道这个"麻省理工学院"开放式课程网页" ...

  7. 中文NLP的分词真有必要吗?李纪为团队四项任务评测一探究竟 | ACL 2019

    作者| Yuxian Meng.Xiaoya Li.Xiaofei Sun.Qinghong Han.Arianna Yuan. Jiwei Li 译者 | Rachel 责编 | Jane 出品 | ...

  8. 北大新研究用数学模型揭网红崛起奥秘!登上Nature子刊

      视学算法报道   编辑:David [新智元导读]社交媒体上的「网红」是怎样产生的?在一项发表于<自然·通讯>的研究中,北京大学与瑞士苏黎世联邦理工大学领导的研究团队合作,通过数学模型 ...

  9. [转]机器学习和深度学习资料汇总【01】

    本文转自:http://blog.csdn.net/sinat_34707539/article/details/52105681 <Brief History of Machine Learn ...

最新文章

  1. Element 对象表示 XML 文档中的元素。
  2. IBM的大数据就是返朴归真
  3. spring mysql 注解_【Spring】SpringMVC之基于注解的实现SpringMVC+MySQL
  4. Unix时间相关的函数
  5. Spring Boot Transaction 源码解析(二)
  6. 《走遍中国》珍藏版(四)
  7. leetcode python3 简单题231. Power of Two
  8. 360服务器已停止响应,对于 SQL Server 2017年累积更新 5
  9. 你该不会不知道,web自动化测试中的八大定位方法吧!
  10. 使用 Python 进行人脸识别(第2部分)
  11. C语言 FlappyBird×马里奥
  12. easypanel php.ini,虚拟主机控制面板(easypanel)下载_虚拟主机控制面板(easypanel)官方下载-太平洋下载中心...
  13. uniapp , 微信小程序 图片加载时闪烁
  14. FastQC使用与结果详细解读
  15. C#面试经历分享(好好看,好好学)
  16. KVM远程迁移启动报错
  17. C语言基础习题及答案7
  18. String字符串分割的3种方法 Java
  19. 计算化学领域的黑科技
  20. Java实验之接口与实现、内部类与异常类

热门文章

  1. java开发的应用的有哪些
  2. Onedrive删除过程记录
  3. Android,ios,安卓app推送消息通知,java后台向手机推送app的通知教程
  4. vue中给字段base 64加密
  5. Android 版本 相关参数修改(SpreadTrum)
  6. 【GPU】Nvidia CUDA 编程基础教程——利用基本的 CUDA 内存管理技术来优化加速应用程序
  7. SQL之having关键字用法
  8. 少即是多:视觉SLAM的点稀疏化(IROS 2022)
  9. Visual Studio 2019 (VS2019)安装Spy++工具
  10. 初识JavaWeb(web开发概述、web开发环境的搭建、创建并发布web项目)