分类

本章中讲到了三种分类方法:

决策树分类

在决策树分类中详细介绍了三种决策树的属性选择度量:

信息增益

分区D为标记类元组的训练集。
D的熵,即所需要的期望信息为:

按某属性A划分D,则该期望值为:

属性A的信息增益值为:

ID3采用信息增益。
信息增益度量偏向于具有许多输出的测试,即偏向具有大量值的属性。

增益率

但若每个属性的元组个数为1,此时的信息增益无法对属性的划分提供有效信息。
以属性A划分D,划分点的值:

增益率:

C4.5采用增益率。
增益率的出现即试图克服信息增益的偏倚。但增益率倾向于产生不平衡的划分,其中一个分区比其他分区小得多。
信息增益度量关于分类基于同样划分的所获得的信息。

Gini指数

Gini指数定义为:

以属性A划分的基尼指数为:

属性A的不纯度为:

CART使用基尼指数。
基尼指数度量数据分区或训练元组集D的不纯度。最终选择基尼指数最小的指数,会产生较大的不纯度。
基尼指数偏向于多值属性,并且当类的数量过大时,由于计算量较大,会有困难。倾向于导致相等大小的分区和纯度。

朴素贝叶斯分类

首先介绍贝叶斯定理中的基本概念:

即将预测X 具有最高后验概率的类。

后验概率

P(H|X)是后验概率。或在条件X下,H的后验概率。假设数据元组限于分别由属性age和income描述的顾客,而X是一位25岁,收入为4万元的顾客。令H为某种假设,如顾客将购买计算机。
则P(H|X)反映当已知顾客X的属性值时,顾客X购买计算机的概率。

先验概率

P(H),H的先验概率。是任意给定顾客将购买计算机的概率,而不管他们的年龄、收入等。P(H)独立于X。

朴素贝叶斯朴素在哪里?

朴素贝叶斯假定一个属性值在给定类上的影响独立于其他属性的值。这一假定成为类条件独立性。
也就是简化了P(X|H)的计算。

对于存在零概率值时,应如何处理?

拉普拉斯估计法:对q个类的计数都加上1,在对应分母上都加上q。

IF-THEN规则分类

模型评估与选择

评估分类器性能度量

混淆矩阵用来评估分类器的质量,对于二分类问题,它显示真正例TP、真负例TN、假正例FP、假负例FN。

而评估性能度量包括:
准确率、灵敏度(召回率)、特效性、精度、F1和Fp。

当感兴趣的主类占少数时,过分依赖准确率度量可能受骗
3%例子。

数据集划分

  • 保持
  • 随机抽样
  • 交叉验证(k-fold)
  • 自助法

显著性检验和ROC、AUC曲线

显著性检验用来评估两个分类器准确率的差别是否出于偶然。(这个很有用)
ROC曲线绘制一个或多个分类器的真正例率与假正例率。

提升模型准确度:组合方法

  • 装袋(有放回抽样)
  • 提升(有权重)
  • 随机森林(决策树)

类不平衡问题

  • 过抽样和欠抽样
  • 阈值移动
  • 组合技术

《数据挖掘概念与技术》第八章 分类:基本概念相关推荐

  1. 《知识图谱概念与技术》读书笔记:概念图谱中的isA关系

    读完可以回答以下问题: 1.概念图谱构建的要素是什么?如何构建优质的概念图谱? 2.概念图谱中isA关系的抽取方法有哪些?实际应用较多的方法有哪些?实际应用时抽取过程是怎样的? 3.中文概念图谱的构建 ...

  2. 【读书笔记-数据挖掘概念与技术】聚类分析:基本概念和方法

    下图摘自:http://blog.163.com/qianshch@126/blog/static/48972522201092254141315/ 主要的聚类方法可以划分为以下几类: 划分方法 层次 ...

  3. 读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.4 数据集成和变换

    <数据挖掘:概念与技术(原书第2版)> 2.4 数据集成和变换 数据挖掘经常需要数据集成-合并来自多个数据存储的数据.数据还可能需要转换成适于挖掘的形式.本节介绍数据集成和数据变换. 2. ...

  4. 数据挖掘 概念与技术(原书第3版)

    <数据挖掘:概念与技术(原书第3版)>完整全面地讲述数据挖掘的概念.方法.技术和全新研究进展.本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理.频繁模式挖掘. ...

  5. 【干货书】Python中的商业分析概念、技术和应用的数据挖掘

    来源:专知 本文为书籍介绍,建议阅读5分钟读者将学习如何在Python中实现各种流行的数据挖掘算法,以解决业务问题和机会. 商业分析的数据挖掘:Python中的概念.技术和应用介绍了数据挖掘概念和方法 ...

  6. 数据挖掘:概念与技术 第一章

    文章目录 第一章:引论 1.1 为什么进行数据挖掘? 1.2 什么是数据挖掘? 1.3 可以挖掘什么==类型的数据== 1.3.1 数据库和数据仓库的区别 1.3.2 事务数据 1.4 可以挖掘什么= ...

  7. 数据挖掘概念与技术课后笔记

    数据挖掘概念与技术一 数据爆炸:自动数据收集工具和成熟的数据库技术使大量的数据被收集,储存在数据库.数据仓库或其他信息库中以待分析. 数据挖掘:从大量的数据中挖掘令人感兴趣的.有用的.隐含的.先去未知 ...

  8. 数据挖掘:概念与技术

    <数据挖掘:概念与技术> 基本信息 原书名:Data Mining:Concepts and Techniques,Third Edition 作者: (美)Jiawei Han伊利诺伊大 ...

  9. 【数据挖掘概念与技术】学习笔记5-数据立方体技术

    基本方体是数据立方体中泛化程度最低的方体.泛化程序最高的方体是顶点方体,通常用all表示.基本方体的单元是基本单元,非基本方体的单元是聚集单元. 聚集单元在一个或多个维上聚集,其中每个聚集维用单元记号 ...

  10. 【读书笔记-数据挖掘概念与技术】数据立方体技术

    基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴 ...

最新文章

  1. 差异表达基因火山图(ggplot函数)
  2. 更好地认知Azure
  3. 微信小程序——tab切换内容
  4. 算法提高课-图论-有向图的强连通分量-AcWing 1174. 受欢迎的牛:tarjan算法求强连通分量、tarjan算法板子、强连通图
  5. Matlab坐标图像隐藏横纵坐标的方法
  6. Bootstrap系列 -- 41. 带表单的导航条
  7. 【Java】计算1+1/2+1/3+1/4....前20项
  8. MTK modem 通话无声
  9. [译]GLUT教程 - 整合代码3
  10. CodeForces1005D - Polycarp and Div 3
  11. robotframework 新建UI自动化测试用例实例一(2)
  12. 汇编语言与微机接口——交通灯设计
  13. iOS 在线下载字体
  14. 花大价钱买十五年前的交换机架构的“分布式KVM坐席/数字KVM坐席”???
  15. 老人步履蹒跚,警惕骨关节炎
  16. vue el-descriptions 样式问题
  17. 瀑布流布局 js定位
  18. easyui ValidateBox validType验证规则
  19. 为什么在马云成功前就有那么多影像留下来?
  20. 公钥密码学中的三大难解数学问题

热门文章

  1. 一个简单的dos命令实现无限弹窗,卡死电脑
  2. Xilinx Vivado 2017.2安装教程
  3. hp打印机驱动android,惠普打印机驱动
  4. 阿里云播放器Aliplayer-WEB走坑中
  5. c# gerber文件读取_必须收藏的一篇关于:AD18生成gerber文件及用CAM350读取gerber教程...
  6. OpenCV41:Meanshif和Camshift
  7. python 数据结构包括三方面_Python数据结构:数据框
  8. 图像特征提取之LBP算法
  9. tomcat下载安装步骤(超详细)
  10. 欺骗的艺术-读后总结