Zipf's law(中文似乎叫 齐普夫定律)

这是自然语言处理领域的一个有趣的定律,其实称为规律更合适,因为这是一个经验性的结果,是通过统计数据得出来的近似的规律。
它的定义有些绕口,就是说,在一个自然语言的语料库中,一个词的出现频数和这个词在这个语料中的排名(这个排名是基于出现次数的)成反比。
"Zipf's law states that given some corpus of natural language utterances, the frequency of any word is inversely proportional to its rank in the frequency table. "

举个例子,在Brown Corpus中,‘the’的排名是最高的,第一位,而它的出现次数是69971。排名第二位的词是‘of’,出现的次数为36411。 1/2 约等于 36411 / 69971。

再举个例子,根据M. L. Hanley(1937)中有关James Joyce Ulysses的用词数据,从中抽取了第10、20等序号的词,其序号(r)与在书中的出现次数(f)的乘积分别如下表的III栏。除了最后三个数字出入稍大一点,其他的都在26,000左右。而且,Zipf发现常数C乘以10跟该书的实际总词数260,430很接近,如IV栏所示。

Zipf's law相关推荐

  1. 齐夫定律, Zipf's law,Zipfian distribution

    齐夫定律(英语:Zipf's law,IPA英语发音:/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律. 它可以表述为: 在 ...

  2. Zipf's law分析

    简单地说,Zipf发现一个词在一个有相当长度的语篇中的等级序号(该词在按出现次数排列的词表中的位置,他称之为rank,简称r)与该词的出现次数(他称为frequency,简称f)的乘积几乎是一个常数( ...

  3. 幂次法则power law

    幂次法则分布和高斯分布是两种广泛存在的数学分布.可以预测和统计相关数据. pig中用其处理数据倾斜,实现负载均衡. 个体的规模和其名次之间存在着幂次方的反比关系,R(x)=ax(-b次方) 其中,x为 ...

  4. MIT开放式课程“自然语言处理”介绍

    MIT开放式课程"自然语言处理"介绍 发表于 2009年01月2号 由 52nlp 从订阅的Google快讯上知道这个"麻省理工学院"开放式课程网页" ...

  5. 2018-4-2 幂律分布函数

    材料来源 幂律分布 - CSDN博客 https://blog.csdn.net/Together_CZ/article/details/71403073?locationNum=6&fps= ...

  6. 中文NLP的分词真有必要吗?李纪为团队四项任务评测一探究竟 | ACL 2019

    作者| Yuxian Meng.Xiaoya Li.Xiaofei Sun.Qinghong Han.Arianna Yuan. Jiwei Li 译者 | Rachel 责编 | Jane 出品 | ...

  7. 北大新研究用数学模型揭网红崛起奥秘!登上Nature子刊

      视学算法报道   编辑:David [新智元导读]社交媒体上的「网红」是怎样产生的?在一项发表于<自然·通讯>的研究中,北京大学与瑞士苏黎世联邦理工大学领导的研究团队合作,通过数学模型 ...

  8. DNS通道检测 国外学术界研究情况——研究方法:基于流量,使用机器学习分类算法居多,也有使用聚类算法的;此外使用域名zif low也有...

    http://www.ijrter.com/papers/volume-2/issue-4/dns-tunneling-detection.pdf  <DNS Tunneling Detecti ...

  9. [转]机器学习和深度学习资料汇总【01】

    本文转自:http://blog.csdn.net/sinat_34707539/article/details/52105681 <Brief History of Machine Learn ...

最新文章

  1. 【学术相关】研究生通常都有怎样的作息时间呢?
  2. MongoDB学习笔记三:查询
  3. python数据整理_python数据类型整理
  4. JVM(4)——对象访问
  5. IOC操作Bean管理XML方式(P名称空间注入)
  6. VS打包项目详细解析
  7. 让电脑替你说:"I IOVE YOU"
  8. webpack最新版本_【每日面经】字节跳动、美团点评、360最新面经速递!
  9. 全国750所高校(50所985/211)501个专业的毕业生在同一家公司搞事情
  10. 和秋叶一起学PPT之段落排版与字体(课时四、五)
  11. hexo WARN No layout: index.html
  12. 文件上传的测试点整理
  13. TCP/IP Attack Lab(SEED实验)
  14. 科普|掀开马甲包的 “神秘面纱”
  15. 华捷艾米王亚楠:3D MR让未来无限可能
  16. 关于LANDesk我们知道些什么
  17. 人脸识别行业应用状况及发展前景模式分析报告
  18. 【命名规则】驼峰命名法
  19. ps抠图——抠出自己想要的素材(钢笔工具的使用)
  20. ThingsBoard 2.5.3发布

热门文章

  1. 『公务员』面试资料(转载)
  2. zabbix清空历史记录
  3. FLEX 3D PieChart 纠结
  4. Adobe Premiere怎么设置动态跟踪马赛克
  5. Javascript中分号的问题
  6. 弹出一个自定义的Diglog
  7. OCR技术大揭秘:纸质文档数字化的新选择
  8. matlab传递函数参数辨识,5.2 传递函数的频域辨识 系统辨识理论及Matlab仿真课件.ppt...
  9. 2022年茶艺师(初级)特种作业证考试题库及答案
  10. Criteria的用法详解