一、分类的主要思想

分类是一种重要的数据分析形势,它提取刻画重要数据类的模型。这种模型称为分类器,预测分类(离散的、无序的)类标号。

例如:可以建立一个分类模型,把银行贷款申请划分成“安全”或"危险";销售数据的“是”或“否”;等等。这些类别可以用离散值表示,其中值之间的次序没有意义。

数据分析任务都是分类,都需要构造一个模型或分类器来预测类标号。

销售经理希望预测给定的顾客将花多少钱。该数据分析任务就是数值预测,其中构造的模型预测一个连续值函数或有

序值,而不是类标号。这种模型是预测器回归分析是数值预测最常用的统计学方法。(当然还存在其他数值预测方法)。

分类和数值预测是预测问题的两种重要类型。本文主要讲述分类。

二、分类的步骤

数据分类是一个两阶段过程,包括学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类标号)

在第一阶段,建立描述预先定义的数据类或概念集的分类器。这是学习阶段(或训练阶段),其中分类算法通过分析或从训练集“学习”来构造分类器。训练集中提供了每个训练元组的类标号,这一阶段也称为监督学习(即分类器的学习在被告知每个训练元组属于哪个类的“监督”下进行的)。它不同于无监督学习(或聚类),每个训练组的类标号是未知的,并且要学习的类的个数或集合也可能事先不知道。

在第二阶段,使用模型进行分类。首先评估分类器的预测准确率。如果使用训练集来度量分类器的准确率,则评估可能是乐观的,因为分类器趋向于过分拟合该数据(即在学习期间,它可能包含了训练数据中的某些特定的异常,这些异常不在一般数据集中出现)。

三、分类的基本技术(部分)

3.1 如何建立决策树分类器

决策树归纳是从有类标号的训练元组中学习决策树。决策树是一种类似于流程图的树结构。一个典型的决策树如下图所示

属性选择度量 是一种选择分裂准则。如1.信息增益;2.基尼指数

在决策树创建时由于数据中的噪声和离群点,往往需要通过剪枝方法处理这种过分拟合数据问题。

3.2 贝叶斯分类器

贝叶斯分类方法是统计学分类方法。它们可以预测类隶属关系的概率

贝叶斯分类基于贝叶斯定理。分类算法的比较研究发现,一种称为朴素贝叶斯分类法的简单贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。

(1)贝叶斯定理:            P(H|X)是后验概率;P(H)是先验概率

(2) 朴素贝叶斯分类

或简答贝叶斯分类方法

计算方法可参考教材《数据挖掘概念与技术第三版》。

例子:使用朴素贝叶斯分类预测类标号

3.3 基于规则的分类器

IF-THEN规则分类;决策树提取规则;使用顺序覆盖算法的规则归纳。

四、评估和比较分类方法

精度、召回率

----------后续用到在补充--------------

(二) 数据挖掘之分类相关推荐

  1. 数据挖掘 文本分类 知乎问题单分类(二):爬取知乎某话题下的问题(数据爬取)

    数据挖掘 文本分类 知乎问题单分类(二):爬取知乎某话题下的问题(数据爬取) 爬虫目标 Scrapy框架介绍 Scrapy框架原理 [^1] Scrapy工作流程 [^2] 具体实现 安装Scrapy ...

  2. R语言分类模型:逻辑回归模型LR、决策树DT、推理决策树CDT、随机森林RF、支持向量机SVM、Rattle可视化界面数据挖掘、分类模型评估指标(准确度、敏感度、特异度、PPV、NPV)

    R语言分类模型:逻辑回归模型LR.决策树DT.推理决策树CDT.随机森林RF.支持向量机SVM.Rattle可视化界面数据挖掘.分类模型评估指标(准确度.敏感度.特异度.PPV.NPV) 目录

  3. 数据挖掘中分类算法小结

    数据挖掘中分类算法小结   数据仓库,数据库或者其它信息库中隐藏着许多可以为商业.科研等活动的决策提供所需要的知识.分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势 ...

  4. JVM实用参数(二)参数分类和即时(JIT)编译器诊断

    作者: PATRICK PESCHLOW     原文地址    译者:赵峰 校对:许巧辉 在这个系列的第二部分,我来介绍一下HotSpot JVM提供的不同类别的参数.我同样会讨论一些关于JIT编译 ...

  5. HALCON示例程序class_2dim_sup.hdev使用二维像素分类对图像进行分割

    HALCON示例程序class_2dim_sup.hdev使用二维像素分类对图像进行分割 示例程序源码(加注释) 定义Interactive并赋值,0:固定框:1:手工绘制框. Interactive ...

  6. 独家思维导图!让你秒懂李宏毅2020机器学习(二)—— Classification分类

    独家思维导图!让你秒懂李宏毅2020机器学习(二)-- Classification分类 在上一篇文章我总结了李老师Introduction和regression的具体内容,即1-4课的内容,这篇我将 ...

  7. 【机器学习】KNN算法实战项目二:水果分类

    KNN算法实战项目二:水果分类 2 KNN实现水果分类 2.1 模块导入与数据加载 2.2 数据EDA 2.3 模型创建与应用 2.4 绘制决策边界 手动反爬虫: 原博地址 https://blog. ...

  8. 机器学习 实验二 男声女声分类

    机器学习 实验二 男声女声分类 一.实验环境 PC机,Python 二.代码 #%%import pandas as pd from sklearn.preprocessing import Stan ...

  9. 分类算法matlab实例,数据挖掘之分类算法---knn算法(有matlab例子)

    knn算法(k-Nearest Neighbor algorithm).是一种经典的分类算法.注意,不是聚类算法.所以这种分类算法 必然包括了训练过程. 然而和一般性的分类算法不同,knn算法是一种懒 ...

最新文章

  1. 硕博就业:引进博士40万;硕士20万;本科15万
  2. 基于ACR的镜像仓库管理,云计算技术与应用实验报告
  3. 不止摩尔定律,计算领域值得学习的定律还有哪些?
  4. Python的__pycache__文件夹
  5. 基于TensorFlow的2个机器学习简单应用实例
  6. 进程分析命令(持续更新中)
  7. Linux命令之hexdump - ”十六“进制查看器
  8. 【HDU - 1852】 Beijing 2008()
  9. 旷视Face++与西交大成立AI联合实验室,郑南宁孙剑再续师徒缘
  10. 职称计算机和英语有效性,2015职称计算机考试突破小诀窍
  11. 【亲测有效】iPhone实现定时关机、开机 - 远离手机 准时睡觉
  12. ASC加密解密(笔记)
  13. Linux服务器 mysql5.7安装流程
  14. 网络SSID是什么意思
  15. 计算机中的windows任务管理器在哪,window任务管理器在哪,windows7如何重装
  16. SCAU【1020】正负奇偶判断
  17. 计算机网络协议分析 第三课 PAP,CHAP,PPPoE
  18. SDN/Mininet/ryu 踩坑
  19. 美团的至暗时刻:用户口碑崩塌,食品安全五连击,股价腰斩!
  20. google 面试题

热门文章

  1. 生信软件(1)bioawk
  2. 射频中IM3、IIP3、OIP3、G、P1dB指标计算
  3. vue项目引入高德地图
  4. 在Mac上开启AptX
  5. Apache Structured Streaming_JZZ158_MBY
  6. 笔记本无线和有线的MAC地址修改
  7. 小试爬虫之豆瓣电影TOP250
  8. python3+requests+BeautifulSoup+mysql爬取豆瓣电影top250
  9. SpringBoot里参数校验/参数验证
  10. 网易互娱C++岗一面面经(凉面)