Zipf's law分析
简单地说,Zipf发现一个词在一个有相当长度的语篇中的等级序号(该词在按出现次数排列的词表中的位置,他称之为rank,简称r)与该词的出现次数(他称为frequency,简称f)的乘积几乎是一个常数(constant,简称C)。用公式表示,就是r × f = C。例如,他根据M. L. Hanley(1937)中有关James Joyce Ulysses的用词数据,从中抽取了第10、20等序号的词,其序号(r)与在书中的出现次数(f)的乘积分别如下表的III栏。除了最后三个数字出入稍大一点,其他的都在26,000左右。而且,Zipf发现常数C乘以10跟该书的实际总词数260,430很接近,如IV栏所示。
I Rank (r) |
II Frequency (f) |
III Product of I and II (r × f = C) |
IV Theoretical Length of Ulysses (C × 10) |
10 |
2,653 |
26,530 |
265,300 |
20 |
1,311 |
26,220 |
262,200 |
30 |
926 |
27,780 |
277,800 |
40 |
717 |
28,680 |
286,800 |
50 |
556 |
26,500 |
278,000 |
100 |
265 |
26,500 |
265,000 |
200 |
133 |
26,600 |
266,000 |
300 |
84 |
25,200 |
252,000 |
400 |
62 |
24,800 |
248,000 |
500 |
50 |
25,000 |
250,000 |
1,000 |
26 |
26,000 |
260,000 |
2,000 |
12 |
24,000 |
240,000 |
3,000 |
8 |
24,000 |
240,000 |
4,000 |
6 |
24,000 |
240,000 |
5,000 |
5 |
25,000 |
250,000 |
10,000 |
2 |
20,000 |
200,000 |
20,000 |
1 |
20,000 |
200,000 |
29,899 |
1 |
29,899 |
298,990 |
Zipf's law分析相关推荐
- 齐夫定律, Zipf's law,Zipfian distribution
齐夫定律(英语:Zipf's law,IPA英语发音:/ˈzɪf/)是由哈佛大学的语言学家乔治·金斯利·齐夫(George Kingsley Zipf)于1949年发表的实验定律. 它可以表述为: 在 ...
- Zipf's law
Zipf's law(中文似乎叫 齐普夫定律) 这是自然语言处理领域的一个有趣的定律,其实称为规律更合适,因为这是一个经验性的结果,是通过统计数据得出来的近似的规律. 它的定义有些绕口,就是说,在一个 ...
- 大数据分析笔记 (6) - 文本分析 (Text Analysis)
大数据分析笔记 - 文本分析 总览 文本分析步骤 挑战 第一步:收集原始文本数据(Collecting Raw Text) 第二步:表示文本 (Representing Text) 第三步:词频-逆文 ...
- NXP(Freescale) QorIQ T2080启动流程分析
作者 QQ群:852283276 微信:arm80x86 微信公众号:青儿创客基地 B站:主页 https://space.bilibili.com/208826118 参考 ARM U-Boot S ...
- 幂次法则power law
幂次法则分布和高斯分布是两种广泛存在的数学分布.可以预测和统计相关数据. pig中用其处理数据倾斜,实现负载均衡. 个体的规模和其名次之间存在着幂次方的反比关系,R(x)=ax(-b次方) 其中,x为 ...
- MIT开放式课程“自然语言处理”介绍
MIT开放式课程"自然语言处理"介绍 发表于 2009年01月2号 由 52nlp 从订阅的Google快讯上知道这个"麻省理工学院"开放式课程网页" ...
- 中文NLP的分词真有必要吗?李纪为团队四项任务评测一探究竟 | ACL 2019
作者| Yuxian Meng.Xiaoya Li.Xiaofei Sun.Qinghong Han.Arianna Yuan. Jiwei Li 译者 | Rachel 责编 | Jane 出品 | ...
- 北大新研究用数学模型揭网红崛起奥秘!登上Nature子刊
视学算法报道 编辑:David [新智元导读]社交媒体上的「网红」是怎样产生的?在一项发表于<自然·通讯>的研究中,北京大学与瑞士苏黎世联邦理工大学领导的研究团队合作,通过数学模型 ...
- [转]机器学习和深度学习资料汇总【01】
本文转自:http://blog.csdn.net/sinat_34707539/article/details/52105681 <Brief History of Machine Learn ...
最新文章
- Element 对象表示 XML 文档中的元素。
- IBM的大数据就是返朴归真
- spring mysql 注解_【Spring】SpringMVC之基于注解的实现SpringMVC+MySQL
- Unix时间相关的函数
- Spring Boot Transaction 源码解析(二)
- 《走遍中国》珍藏版(四)
- leetcode python3 简单题231. Power of Two
- 360服务器已停止响应,对于 SQL Server 2017年累积更新 5
- 你该不会不知道,web自动化测试中的八大定位方法吧!
- 使用 Python 进行人脸识别(第2部分)
- C语言 FlappyBird×马里奥
- easypanel php.ini,虚拟主机控制面板(easypanel)下载_虚拟主机控制面板(easypanel)官方下载-太平洋下载中心...
- uniapp , 微信小程序 图片加载时闪烁
- FastQC使用与结果详细解读
- C#面试经历分享(好好看,好好学)
- KVM远程迁移启动报错
- C语言基础习题及答案7
- String字符串分割的3种方法 Java
- 计算化学领域的黑科技
- Java实验之接口与实现、内部类与异常类
热门文章
- java开发的应用的有哪些
- Onedrive删除过程记录
- Android,ios,安卓app推送消息通知,java后台向手机推送app的通知教程
- vue中给字段base 64加密
- Android 版本 相关参数修改(SpreadTrum)
- 【GPU】Nvidia CUDA 编程基础教程——利用基本的 CUDA 内存管理技术来优化加速应用程序
- SQL之having关键字用法
- 少即是多:视觉SLAM的点稀疏化(IROS 2022)
- Visual Studio 2019 (VS2019)安装Spy++工具
- 初识JavaWeb(web开发概述、web开发环境的搭建、创建并发布web项目)