Zipf's law
Zipf's law(中文似乎叫 齐普夫定律)
这是自然语言处理领域的一个有趣的定律,其实称为规律更合适,因为这是一个经验性的结果,是通过统计数据得出来的近似的规律。
它的定义有些绕口,就是说,在一个自然语言的语料库中,一个词的出现频数和这个词在这个语料中的排名(这个排名是基于出现次数的)成反比。
"Zipf's law states that given some corpus of natural language utterances, the frequency of any word is inversely proportional to its rank in the frequency table. "
举个例子,在Brown Corpus中,‘the’的排名是最高的,第一位,而它的出现次数是69971。排名第二位的词是‘of’,出现的次数为36411。 1/2 约等于 36411 / 69971。
再举个例子,根据M. L. Hanley(1937)中有关James Joyce Ulysses的用词数据,从中抽取了第10、20等序号的词,其序号(r)与在书中的出现次数(f)的乘积分别如下表的III栏。除了最后三个数字出入稍大一点,其他的都在26,000左右。而且,Zipf发现常数C乘以10跟该书的实际总词数260,430很接近,如IV栏所示。
Zipf's law相关推荐
- 齐夫定律, Zipf's law,Zipfian distribution
齐夫定律(英语:Zipf's law,IPA英语发音:/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律. 它可以表述为: 在 ...
- Zipf's law分析
简单地说,Zipf发现一个词在一个有相当长度的语篇中的等级序号(该词在按出现次数排列的词表中的位置,他称之为rank,简称r)与该词的出现次数(他称为frequency,简称f)的乘积几乎是一个常数( ...
- 幂次法则power law
幂次法则分布和高斯分布是两种广泛存在的数学分布.可以预测和统计相关数据. pig中用其处理数据倾斜,实现负载均衡. 个体的规模和其名次之间存在着幂次方的反比关系,R(x)=ax(-b次方) 其中,x为 ...
- MIT开放式课程“自然语言处理”介绍
MIT开放式课程"自然语言处理"介绍 发表于 2009年01月2号 由 52nlp 从订阅的Google快讯上知道这个"麻省理工学院"开放式课程网页" ...
- 2018-4-2 幂律分布函数
材料来源 幂律分布 - CSDN博客 https://blog.csdn.net/Together_CZ/article/details/71403073?locationNum=6&fps= ...
- 中文NLP的分词真有必要吗?李纪为团队四项任务评测一探究竟 | ACL 2019
作者| Yuxian Meng.Xiaoya Li.Xiaofei Sun.Qinghong Han.Arianna Yuan. Jiwei Li 译者 | Rachel 责编 | Jane 出品 | ...
- 北大新研究用数学模型揭网红崛起奥秘!登上Nature子刊
视学算法报道 编辑:David [新智元导读]社交媒体上的「网红」是怎样产生的?在一项发表于<自然·通讯>的研究中,北京大学与瑞士苏黎世联邦理工大学领导的研究团队合作,通过数学模型 ...
- DNS通道检测 国外学术界研究情况——研究方法:基于流量,使用机器学习分类算法居多,也有使用聚类算法的;此外使用域名zif low也有...
http://www.ijrter.com/papers/volume-2/issue-4/dns-tunneling-detection.pdf <DNS Tunneling Detecti ...
- [转]机器学习和深度学习资料汇总【01】
本文转自:http://blog.csdn.net/sinat_34707539/article/details/52105681 <Brief History of Machine Learn ...
最新文章
- 【学术相关】研究生通常都有怎样的作息时间呢?
- MongoDB学习笔记三:查询
- python数据整理_python数据类型整理
- JVM(4)——对象访问
- IOC操作Bean管理XML方式(P名称空间注入)
- VS打包项目详细解析
- 让电脑替你说:"I IOVE YOU"
- webpack最新版本_【每日面经】字节跳动、美团点评、360最新面经速递!
- 全国750所高校(50所985/211)501个专业的毕业生在同一家公司搞事情
- 和秋叶一起学PPT之段落排版与字体(课时四、五)
- hexo WARN No layout: index.html
- 文件上传的测试点整理
- TCP/IP Attack Lab(SEED实验)
- 科普|掀开马甲包的 “神秘面纱”
- 华捷艾米王亚楠:3D MR让未来无限可能
- 关于LANDesk我们知道些什么
- 人脸识别行业应用状况及发展前景模式分析报告
- 【命名规则】驼峰命名法
- ps抠图——抠出自己想要的素材(钢笔工具的使用)
- ThingsBoard 2.5.3发布