(1). Zipf定律描述

1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系(如图1),这种分布就称为Zipf定律。其公式为:

P(r)=C/r^a

这里,r表示一个单词的出现频率的排名,P(r)表示排名为的单词的出现频率。单词频率分布中C约等于0.1, a约等于1。需要注意的是,不同的内容,不同的场景,这两个参数是需要调整的,具体可以通过对原分布直方图取对数来获得斜率和截距。

图1 zipf分布实例

这个分布是一个统计型的经验规律。它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。如果按照出现频率排序,则第二常见的单词出现频率是第一常见单词出现频率的1/2,第三常见单词为第一常见单词出现频率的1/3,第三常见单词为第一常见单词出现频率的1/n。这样延伸出来,就是常见的“80/20法则”。80%的资源掌握在20%的人手里。前20%的单词出现频率占所有单词的80%。Zipf定律是文献计量学的重要定律之一,它和洛特卡定律、布拉德福定律一起被并称为文献计量学的三大定律。

实际上,包括汉语在内的许多国家的语言都有这种特点。这个定律后来在很多领域得到了同样的验证,包括网站的访问者数量、城镇的大小和每个国家公司的数量。

(2). Zipf定律的特征化

结合该定律的原理,我们可以针对异常检测等应用获得Zipf特征,具体步骤如下:

Step1:统计训练数据中各种情况出现的次数,从大到小排列,获得分布直方图(如图1);

Step2:对原始直方图的横、纵坐标取对数,由变换后的直线斜率得到参数a的值,截距得到参数C的值;

Step3:根据概率分布需要归一化的性质,将T*C/r^a对r从(0,+无穷)积分(累加),并令其等于1,得到归一化常数T;

Step4:对于每个(新)样本,首先确定其对应的r,然后再计算其zipf特征,即出现该情况r的概率:T*C/r^a。

Note:

1. 关于Zipf定律的成因,可以参考:胡海波,王林《幂律分布研究简史》,2005.

【特征工程系列3】Zipf定律及其特征化相关推荐

  1. 特征工程系列(一):特征工程的概念/特征的处理

    1 特征工程的概念 所谓数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限.那么特征工程到底是什么呢?其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用. 2 特征 ...

  2. 特征工程系列:自动化特征构造

    特征工程系列:自动化特征构造 原创: JunLiang 木东居士  今天 0x00 前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已.由此可见,特征工程在机器学习中占有相当重要的 ...

  3. 特征工程系列:特征筛选的原理与实现(下)

    0x00 前言 我们在<特征工程系列:特征筛选的原理与实现(上)>中介绍了特征选择的分类,并详细介绍了过滤式特征筛选的原理与实现.本篇继续介绍封装式和嵌入式特征筛选的原理与实现. 0x01 ...

  4. [特征工程系列五]基于蒙特卡洛搜索树的半自动特征工程方案

    不知道有多少同学坚持看完了特征工程系列1~4,今天我们迎来最后一篇.前面的四篇其实都是一些基于特征工程理论的干货的分享,今天我们来点虚的,讲讲我YY的一种蒙特卡洛搜索树的半自动化的特征工程方案.其实为 ...

  5. [特征工程系列一] 论特征的重要性

    满打满算,还有十天左右就要过年了,这些天大家或多或少都有点浮躁.反过来想,趁大家都懈怠的时候,正是学习的最佳时机.趁着这几天,也给自己加点码,去认真的再看一下特征工程.我给自己列了下面的这一份学习清单 ...

  6. ​特征工程系列:特征预处理(上)

    特征工程系列:特征预处理(上) 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0x00 前言 数据和特征决定了机器学习的上限,而模 ...

  7. 特征工程系列:特征预处理(下)

    特征工程系列:特征预处理(下) 本文为数据茶水间群友原创,经授权在本公众号发表. 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0 ...

  8. 特征工程系列:数据清洗

    文章系列: 特征工程系列:数据清洗 特征工程系列:特征筛选的原理与实现 特征工程系列:特征预处理 特征工程系列:特征构造 特征工程系列:时间特征构造以及时间序列特征构造 前言 数据和特征决定了机器学习 ...

  9. 特征工程系列:特征筛选的原理与实现(上)

    本文为数据茶水间群友原创,经授权在本公众号发表. 关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问.动手达人,期待与大家一起交流探讨机器学习相关内容~ 0x00 前言 数据和特征决定了机 ...

  10. 手动特征工程已经OUT了!自动特征工程才是改进机器学习的方式

    作者 | William Koehrsen 译者 | linstancy 编辑 | Jane 出品 | AI科技大本营 [导读]近年来,我们在自动模型选择和超参数调优方面取得了进展,但机器学习流程中最 ...

最新文章

  1. android java 中文乱码_android读写中文如何避免乱码详解
  2. Kibana + Elasticsearch + ik分词的集群搭建
  3. SAP MM 如果存在OPEN的盘点凭证,则不能再次创建盘点凭证
  4. 「机器人界的微软」创始人逝世,从iPhone到汽车都离不开他的创造
  5. 代码注入之远程线程篇
  6. .NET Core 使用 nlog 进行日志记录
  7. 希尔排序算法图解分析
  8. Rolling Guidance Filter
  9. 【放置奇兵】天六水晶和心三水晶(宝石、心灵水晶)
  10. 第十五节:Asp.Net Core MVC和WebApi路由规则的总结和对比-第二十节
  11. 【DS】线段树HDU-1166
  12. poj 1985 Cow Marathon 【树的直径】
  13. LaTeX 页面大小和页边距
  14. 两台计算机之间的远程连接
  15. 职称计算机萧山考点地址,杭州各科目考点一览表(地址+考试时间+电话)
  16. 高斯投影坐标正算公式详解
  17. 外贸b2c网站建设!
  18. xbox控制台小助手服务器连接已阻止,win10系统xbox控制台小帮手无法登录,提示目前您无法登录怎么办...
  19. 全力冲unreal了
  20. 云主机装黑果实践(6):处理云主机上变色龙启动后置过程:驱动和黑屏

热门文章

  1. 小程序简介好看的登录页面(附源码)
  2. trados 有道api_在Trados中使用微软机器翻译
  3. 机器学习 --- 概率图 - 概述
  4. 代码美化网站,让你的代码别具一格
  5. 电视html转vga没有声音,解决传统VGA接口无声音输出的设备的制作方法
  6. IEC 60601-1-2020 最新英文-医疗电气设备--第1部分 基本安全性及性能的一般要求
  7. 算法 思维导图(一)
  8. CAD2021下载AutoCAD2021下载AutoCAD安装详细教程
  9. ADKAR模型简介(转)
  10. 利用VCF文件构建系统发育树