【特征工程系列3】Zipf定律及其特征化
(1). Zipf定律描述
1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系(如图1),这种分布就称为Zipf定律。其公式为:
P(r)=C/r^a
这里,r表示一个单词的出现频率的排名,P(r)表示排名为的单词的出现频率。单词频率分布中C约等于0.1, a约等于1。需要注意的是,不同的内容,不同的场景,这两个参数是需要调整的,具体可以通过对原分布直方图取对数来获得斜率和截距。
图1 zipf分布实例
这个分布是一个统计型的经验规律。它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。如果按照出现频率排序,则第二常见的单词出现频率是第一常见单词出现频率的1/2,第三常见单词为第一常见单词出现频率的1/3,第三常见单词为第一常见单词出现频率的1/n。这样延伸出来,就是常见的“80/20法则”。80%的资源掌握在20%的人手里。前20%的单词出现频率占所有单词的80%。Zipf定律是文献计量学的重要定律之一,它和洛特卡定律、布拉德福定律一起被并称为文献计量学的三大定律。
实际上,包括汉语在内的许多国家的语言都有这种特点。这个定律后来在很多领域得到了同样的验证,包括网站的访问者数量、城镇的大小和每个国家公司的数量。
(2). Zipf定律的特征化
结合该定律的原理,我们可以针对异常检测等应用获得Zipf特征,具体步骤如下:
Step1:统计训练数据中各种情况出现的次数,从大到小排列,获得分布直方图(如图1);
Step2:对原始直方图的横、纵坐标取对数,由变换后的直线斜率得到参数a的值,截距得到参数C的值;
Step3:根据概率分布需要归一化的性质,将T*C/r^a对r从(0,+无穷)积分(累加),并令其等于1,得到归一化常数T;
Step4:对于每个(新)样本,首先确定其对应的r,然后再计算其zipf特征,即出现该情况r的概率:T*C/r^a。
Note:
1. 关于Zipf定律的成因,可以参考:胡海波,王林《幂律分布研究简史》,2005.
【特征工程系列3】Zipf定律及其特征化相关推荐
- 特征工程系列(一):特征工程的概念/特征的处理
1 特征工程的概念 所谓数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.那么特征工程到底是什么呢?其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用. 2 特征 ...
- 特征工程系列:自动化特征构造
特征工程系列:自动化特征构造 原创: JunLiang 木东居士 今天 0x00 前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.由此可见,特征工程在机器学习中占有相当重要的 ...
- 特征工程系列:特征筛选的原理与实现(下)
0x00 前言 我们在<特征工程系列:特征筛选的原理与实现(上)>中介绍了特征选择的分类,并详细介绍了过滤式特征筛选的原理与实现.本篇继续介绍封装式和嵌入式特征筛选的原理与实现. 0x01 ...
- [特征工程系列五]基于蒙特卡洛搜索树的半自动特征工程方案
不知道有多少同学坚持看完了特征工程系列1~4,今天我们迎来最后一篇.前面的四篇其实都是一些基于特征工程理论的干货的分享,今天我们来点虚的,讲讲我YY的一种蒙特卡洛搜索树的半自动化的特征工程方案.其实为 ...
- [特征工程系列一] 论特征的重要性
满打满算,还有十天左右就要过年了,这些天大家或多或少都有点浮躁.反过来想,趁大家都懈怠的时候,正是学习的最佳时机.趁着这几天,也给自己加点码,去认真的再看一下特征工程.我给自己列了下面的这一份学习清单 ...
- 特征工程系列:特征预处理(上)
特征工程系列:特征预处理(上) 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0x00 前言 数据和特征决定了机器学习的上限,而模 ...
- 特征工程系列:特征预处理(下)
特征工程系列:特征预处理(下) 本文为数据茶水间群友原创,经授权在本公众号发表. 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0 ...
- 特征工程系列:数据清洗
文章系列: 特征工程系列:数据清洗 特征工程系列:特征筛选的原理与实现 特征工程系列:特征预处理 特征工程系列:特征构造 特征工程系列:时间特征构造以及时间序列特征构造 前言 数据和特征决定了机器学习 ...
- 特征工程系列:特征筛选的原理与实现(上)
本文为数据茶水间群友原创,经授权在本公众号发表. 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0x00 前言 数据和特征决定了机 ...
- 手动特征工程已经OUT了!自动特征工程才是改进机器学习的方式
作者 | William Koehrsen 译者 | linstancy 编辑 | Jane 出品 | AI科技大本营 [导读]近年来,我们在自动模型选择和超参数调优方面取得了进展,但机器学习流程中最 ...
最新文章
- android java 中文乱码_android读写中文如何避免乱码详解
- Kibana + Elasticsearch + ik分词的集群搭建
- SAP MM 如果存在OPEN的盘点凭证,则不能再次创建盘点凭证
- 「机器人界的微软」创始人逝世,从iPhone到汽车都离不开他的创造
- 代码注入之远程线程篇
- .NET Core 使用 nlog 进行日志记录
- 希尔排序算法图解分析
- Rolling Guidance Filter
- 【放置奇兵】天六水晶和心三水晶(宝石、心灵水晶)
- 第十五节:Asp.Net Core MVC和WebApi路由规则的总结和对比-第二十节
- 【DS】线段树HDU-1166
- poj 1985 Cow Marathon 【树的直径】
- LaTeX 页面大小和页边距
- 两台计算机之间的远程连接
- 职称计算机萧山考点地址,杭州各科目考点一览表(地址+考试时间+电话)
- 高斯投影坐标正算公式详解
- 外贸b2c网站建设!
- xbox控制台小助手服务器连接已阻止,win10系统xbox控制台小帮手无法登录,提示目前您无法登录怎么办...
- 全力冲unreal了
- 云主机装黑果实践(6):处理云主机上变色龙启动后置过程:驱动和黑屏