数据挖掘经典十大算法

一、十大经典算法

二、信息量

信息量是对信息的度量,例如时间的度量是秒,我们考虑一个离散的随机变量x时,当我们观察到的这个变量的一个具体值的时候,我们接收到的多少信息
用信息量来衡量,我们接受到的信息量跟具体发生的事件有关。信息的大小跟随机事件的概率有关。

越小概率的事情发生了产生的信息量越大 例如我说自己有超能力
越大概率的事情发生了产生的信息量越小 例如 今天打雷之后下雨了

因此一个具体事件的信息量应该是随着其发生概率而递减的,且不能为负。
那么用什么样的函数形式来表示信息量呢?在数学中对于随着概率增大而减少的函数形式有很多。
例如:如果我们有俩个不相关的事件x和y,那么我们观察到的两个事件同时发生时获得的信息量应该等于观察到的事件各自发生时获得的信息之和
h(x,y) = h(x) + h(y)
由于x,y是两个不相关的事件,那么满足p(x,y) = p(x)*p(y).
我们很容易看出h(x)与p(x)的对数有关(因为只有对数形式的真数相乘之后,能够对应对数的相加形式)两个正数的积的对数,等于同一底数的这两个数的对数的和,即:

因此我们有信息量公式如下
对于公式的两个疑问:
(1)为什么有一个负号
负号是为了确保信息量一定是正数或者是0,不能为负数

从函数图像中我们可以看出,当a=2,x在【0-1】之间时函数值始终小于0,因此添上负号确保整个函数值大于0.
(2)为什么底数为2
我们只需要信息量满足低概率事件x对应于高的信息量。那么对数的选择是任意的。我们只是遵循信息论的普遍传统,使用2作为对数的底.当然也可以使用e作为对数的底。

三、信息熵 (熵 Entropy)

信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。
既然是所有可能,那就要求和啦

转换形式:

这样我们信息熵的公式就可以得到了。

四、对于信息熵的另一个理解

信息熵还可以作为一个系统复杂程度的度量,如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的;如果一个系统越简单,出现情况种类很少(极端情况为1种情况,那么对应概率为1,对应的信息熵为0),此时的信息熵较小。

数据挖掘经典十大算法_对基本概念的理解相关推荐

  1. 数据挖掘经典十大算法_条件熵、信息增益介绍

    数据挖掘经典算法_条件熵.信息增益介绍 一.条件熵 首先与信息熵进行类比,从信息熵的计算公式中我们知道它是考虑到该随机变量的所有可能取值,即所有可能发生事件所带来信息量的期望.由此顾名思义 条件熵的定 ...

  2. 数据挖掘经典十大算法_K-Means算法

    数据挖掘经典十大算法_K-Means算法 一.从故事理解K-Means Clustering Algorithm 1.有四个牧师去郊区布道,一开始牧师们随意选了几个布道点,并且把这几个布道点的情况公告 ...

  3. 数据挖掘经典十大算法_C4.5算法

    C4.5算法 一.对算法的通俗理解 C4.5算法是在ID3算法上的改进而来,为啥这么说呢?首先,我们知道ID3算法的核心是在决策树各个结点上应用信息增益做为特征选择的标准,递归的构建决策树,信息增益 ...

  4. 常用十大算法_回溯算法

    回溯算法 回溯算法已经在前面详细的分析过了,详见猛击此处. 简单的讲: 回溯算法是一种局部暴力的枚举算法 循环中,若条件满足,进入递归,开启下一次流程,若条件不满足,就不进行递归,转而进行上一次流程. ...

  5. 机器学习系列(二)ML经典十大算法之一:决策树算法--从代码和统计学角度谈谈cs是如何预测你的行为

    写在前面: 我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿.这名字是来自world order乐队的一首HAVE A NICE DAY.如今,走到现在很多坎坷和不顺,如今终于 ...

  6. 实用 | 数据挖掘的十大算法

    为了进行数据挖掘任务,数据科学家们提出了各种模型,在众多的数据挖掘模型中,国际权威的学术组织 ICDM (the IEEE International Conference on Data Minin ...

  7. 【数据挖掘】十大算法之K-Means K均值聚类算法

    目录 1 Kmeans步骤 2 kmeans损失函数 3 优缺点 4 如何调优和改进 5 改进的算法 1 Kmeans步骤 (1)数据预处理,如归一化.离群点处理等 (2)随机选取K个簇中心,记为u1 ...

  8. 【数据挖掘】十大算法之SVM支持向量机分类算法

    目录 1 基本概念 2 线性可分支持向量机 2.1 定义 2.2 相关概念 2.3 学习算法 4 线性支持向量机 4.1 软间隔最大化 4.2 线性支持向量机的原始最优化问题 4.3 线性支持向量机定 ...

  9. 【数据挖掘】十大算法之EM最大期望估计算法

    目录 1 简介 2 投硬币问题 3 EM算法过程 4 EM收敛性定理 1 简介 EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计.EM算法的迭代由两步组成:E步, ...

最新文章

  1. mysql 事务_MySQL事务
  2. 以太坊经典成为第六个加密货币
  3. 启示录 产品经理 pdf_3个月,从公司前台转行互联网产品经理
  4. C++17 非类型模板参数的auto 和 DevC++ 支持C++17
  5. JAVA WEB知识总结之一--responserequest
  6. python的random函数_关于random()的详细介绍
  7. ABAP--关于重复行的处理
  8. 好记心不如烂笔头,ssh登录 The authenticity of host 192.168.0.xxx can't be established. 的问题...
  9. IOS开发基础之网易新闻UICollectionView的使用第3天
  10. @Value 注入静态变量
  11. python归并排序 分词_python实现归并排序,归并排序的详细分析
  12. 聊一聊 RestTemplate
  13. 2017.2.18 loli测试
  14. close wait 过多原因_从Linux源码看TIME_WAIT状态的持续时间
  15. mysql分表和分区的区别
  16. 作业三——求左部分中的最大值减去右部分最大值的绝对值,最大是多少...
  17. 下个一个语音,计算机.,中国计算机产业的下一个亮点——汉语语音合成的实用化...
  18. Activiti6--入门学习--中间事件
  19. 百度搜索关键词自动提交
  20. 北京招聘 | 京东广告质量部:算法实习生、算法工程师校招

热门文章

  1. 工程项目提成标准方案_工程项目提成实施分配方案
  2. OCR文字识别软件FineReader系列产品双十一特惠!
  3. 基于JAVA+SpringBoot+Mybatis+MYSQL的相册管理系统
  4. Check It Again: Progressive Visual Question Answeringvia Visual Entailment(SAR)
  5. PE文件解析(1):Dos头与NT头
  6. asciidoc_如何使用AsciiDoc创建博客
  7. 荣耀最强拍照手机诞生:荣耀20系列塑造的“潮流科技宇宙”
  8. 飞机飞行与碰撞问题matlab,建模案例—飞行管理问题.ppt
  9. 如何用Python生成二维码
  10. 求n边形周长的k等分点坐标(今日头条)