分类算法

  • 分类算法介绍
    • 概念
    • 分类算法
    • 常见分类算法
      • NBS
      • LR
      • SVM算法
      • ID3算法
      • C4.5 算法
      • C5.0算法
      • KNN 算法
      • ANN 算法
    • 选择分类算法
    • 分类算法性能评估

分类算法介绍

概念

数据挖掘任务通常分为两大类:

  • 预测任务,根据其他属性的值,预测特定属性的值。
  • 描述任务,概括数据中潜在联系的模式(相关性,趋势,聚类,轨迹和异常)

分类属于预测任务,就是通过已有数据集(训练集)的学习,得到一个目标函数f(模型),把每个属性集x映射到目标属性y(类),且y必须是离散的(若y为连续的,则属于回归算法)。

分类流程:

分类算法

分类算法按原理分为以下四大类:

  • 基于统计:如贝叶斯算法
  • 基于规则:如决策树算法
  • 基于神经网络:如神经网络算法
  • 基于距离:如KNN算法

分类算法按模型可以分为一下两类:

  • 预测性模型:直接告诉你数据应被分到哪个类
  • 概率性模型:不直接告诉你结果,但告诉你属于每个类的概率

常见分类算法

参考

 常用的分类算法包括:NBC(Naive Bayesian Classifier,朴素贝叶斯分类)算法、LR(Logistic Regress,逻辑回归)算法、决策树类算法(ID3;Iterative Dichotomiser 3 迭代二叉树3 代、C4.5 决策树算法、C5.0 决策树算法)SVM(Support Vector Machine,支持向量机)算法、KNN(K-Nearest Neighbor,K 最近邻近)算法、ANN(Artificial Neural Network,人工神经网络)算法等。

NBS

朴素贝叶斯

NBC算法的优点:

  • 逻辑简单,易于实现;
  • 所需估计的参数很少;
  • 对缺失数据不太敏感;
  • 具有较小的误差分类率;
  • 性能稳定,健壮性比较好;

NBC算法的缺点:

  1. 在属性个数比较多或者属性之间相关性较大时,NBC 模型的分类效果相对较差;
  2. 算法是基于条件独立性假设的,在实际应用中很难成立,故会影响分类效果

LR

LR详细笔记

LR算法的优点

  1. 对数据中小噪声的鲁棒性好;
  2. LR 算法已被广泛应用于工业问题中;
  3. 多重共线性并不是问题,它可结合正则化来解决。

LR算法的缺点

  1. 对于非线性特征,需要转换
  2. 当特征空间很大时,LR的性能并不是太好

SVM算法

SVM详细说明
通过学习算法,SVM 可以自动寻找出对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的适应能力和较高的分准率。

SVM 算法的目的在于寻找一个超平面H,该超平面可以将训练集中的数据分开,且与类域边界的沿垂直于该超平面方向的距离最大,故SVM 法亦被称为最大边缘算法。

SVM算法的优点

  1. SVM 模型有很高的分准率;
  2. SVM 模型有很高的泛化性能;
  3. SVM 模型能很好地解决高维问题;
  4. SVM 模型对小样本情况下的机器学习问题效果好。

SVM算法的缺点

  1. SVM 模型对缺失数据敏感;
  2. 对非线性问题没有通用解决方案,得谨慎选择核函数来处理。

ID3算法

ID3 算法是一种基于决策树的分类算法,该算法是以信息论为基础,以信息熵和信息增益为衡量标准,从而实现对数据的归纳分类。信息增益用于度量某个属性对样本集合分类的好坏程度。ID3 算法的时间复杂度为O(n*|D|*log|D|)。

ID3算法的优点

  • ID3 算法建立的决策树规模比较小;
  • 查询速度快。

ID3算法的缺点

  1. 不适合处理连续数据;
  2. 难以处理海量数据集;
  3. 建树时偏选属性值较大的进行分离,而有时属性值较大的不一定能反应更多的数据信息。

C4.5 算法

C4.5 算法是ID3 算法的修订版,采用信息增益率来加以改进,选取有最大增益率的分割变量作为准则,避免ID3 算法过度的适配问题。

C4.5算法优点

  1. C4.5 继承了ID3 优点;
  2. 在树构造过程中进行剪枝;
  3. 能对不完整数据进行处理;
  4. 能够完成对连续属性的离散化处理;
  5. 产生的分类规则易于理解,准确率较高;
  6. 用增益率来选择属性,克服了用增益选择属性时偏向选择取值多的属性。

C4.5 算法缺点

  1. 构造树时,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效;
  2. 只适合于能驻留于内存的数据集,当训练集达到内存无法容纳时程序无法运行。

C4.5 用于遥感分类过程中,首先依据通常的方式建立第一个模型。随后建立的第二个模型聚焦于被第一个模型错误分类的记录。以此类推,最后应用整个模型集对样本进行分类,使用加权投票过程把分散的预测合并成综合预测。Boosting 技术对于噪声不大的数据,通常通过建立的多模型来减少错误分类的影响,提高分类精度。

C5.0算法

C5.0 算法是 Quinlan 在C4.5 算法的基础上改进而来的产生决策树的一种更新的算法,它除了包括C4.5 的全部功能外,还引入许多新的技术,其中最重要的技术是提升(Boosting)技术,目的是为了进一步提高决策树对样本的识别率。同时C5.0 的算法复杂度要更低,使用更简单,适应性更强,因此具有更高的使用价值。

C5.0算法的优点

  1. C5.0 模型能同时处理连续和离散的数据
  2. C5.0 模型估计模型通常不需要很长的训练时间;
  3. C5.0 引入Boosting 技术以提高分类的效率和精度;
  4. C5.0 模型易于理解,模型推出的规则有非常直观的解释;
  5. C5.0 模型在面对数据遗漏和特征很多的问题时非常稳健。

C5.0算法的缺点

  • 目标字段必须为分类字段。

在分类模块中采用C5.0 模型来完成决策树分类、形成分类文件,实现遥感影像的分类。

KNN 算法

KNN 算法是Cover 和Hart 于1968 年提出的理论上比较成熟的方法,为十大挖掘算法之一。

该算法的思路非常简单直观:如果一个样本在特征空间中的k 个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

KNN算法的优点

  1. KNN 算法简单、有效;
  2. KNN 算法适用于样本容量比较大的类域的自动分类;
  3. 由于KNN 方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN 方法较其他方法更为适合。

KNN算法的缺点

  1. KNN 算法计算量较大;
  2. KNN 算法需要事先确定K 值;
  3. KNN 算法输出的可解释不强;
  4. KNN 算法对样本容量较小的类域很容易产生误分。

ANN 算法

人工神经网络(ANN)算法就是一组连续的输入/输出单元,其中每个连接都与一个权相关。在学习阶段,通过调整神经网络的权,使得能够预测样本的正确类标号来学习。

ANN算法的优点

  1. 能处理数值型及分类型的属性;
  2. 分类的准确度高,分布并行处理能力强;
  3. 对包含大量噪声数据的数据集有较强的鲁棒性和容错能力。

ANN算法的缺点

  1. 不能观察之间的学习过程;
  2. 学习时间过长,甚至可能达不到学习的目的;
  3. 对于非数值型数据需要做大量数据预处理工作;
  4. 输出结果难以解释,会影响到结果的可信度和可接受程度;
  5. 神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值。

选择分类算法

1、如何选择合适的算法

如果你的训练集很小,高偏差/低方差的分类器(如朴素贝叶斯)比低偏差/高方差的分类器(如K近邻或Logistic回归)更有优势,因为后者容易过拟合。
但是随着训练集的增大,高偏差的分类器并不能训练出非常准确的模型,所以低偏差/高方差的分类器会胜出(它们有更小的渐近误差)。
你也可以从生成模型与鉴别模型的区别来考虑它们。

2、简单的分类模型

  • 朴素贝叶斯(Naive Bayes, NB)
      根据条件独立假设与贝叶斯公式,计算样本属于每个类的概率。

  • 决策树(Decision Tree, DT)
      根据特征集取值不同,将样本逐层划分并建立规则,直到某一个样本集合内的所有样本属于同一类。

  • K近邻(K-nearest neighbors, KNN)
      kNN 算法的思路非常简单直观:如果一个样本在特征空间中的 k 个最相似 ( 即特征空间中最邻近 ) 的样本中的大多数属于某一个类别,则该样本也属于这个类别。

分类算法性能评估

性能与结果的衡量:

  • 准确率:指模型正确地预测新的或未见过的数据的类标号的能力,这也是模型的首要能力。如果一个模型的分类准确率小于百分之五十,那么可以认为其结果是无价值的。在其他条件等同的情况下,当然首选准确率高的分类方法。
  • 速度:指产生和使用模型的时间复杂度。产生模型的试验数据集通常是巨量的,因为一般情况下其数量和分类准确率成正比。如果产生和使用模型的时间过长,将严重影响用户的使用。
  • 稳健性:指给定噪声数据或具有空缺值的数据,模型正确预测的能力。现实中的数据库通常有噪声,有时还很大。如果一个分类器不善于消除噪声的影响,将严重影响分类准确率。
  • 可伸缩性:指给定大量数据,有效的构造模型的能力。有些分类器在数据量很小的情况下可以有效的构造模型,随着数据量的增大,其构造模型的能力显著下降,这最终也会影响分类准确率。
  • 可解释性:指学习模型提供的理解和洞察的层次。

分类算法列一下有多少种?应用场景?分类算法介绍、常见分类算法优缺点、如何选择分类算法、分类算法评估相关推荐

  1. 算法题-跳格子有多少种走法

    问题描述: 假设你正在玩跳格子(所有格子排成一个纵列)游戏.需要 跳完n 个格子你才能抵达终点. 每次你可以跳 1 或 2 个格子.你有多少种不同的方法可以到达终点呢? 注意:给定 n 是一个正整数. ...

  2. 【推荐实践】强化学习算法在京东广告序列推荐场景的应用

    猜你喜欢 0.搜狗信息流推荐系统架构及推荐算法实践1.如何搭建一套个性化推荐系统?2.京东推荐算法精排技术实践3.[万字长文]某视频APP推荐算法及策略详解4.微博推荐算法实践与机器学习平台演进5.腾 ...

  3. 强化学习算法在京东广告序列推荐场景的应用

    今天给大家带来京东零售商业提升事业部-广告质量部-推荐组赵鑫博士所做的分享<强化学习算法在京东广告序列推荐场景的应用.pdf>,关注强化学习.广告.推荐系统/算法等的伙伴们别错过啦!(到小 ...

  4. mysql哪个皮肤好用_MySQL实现replace函数的几种实用场景

    MySQL实现replace函数的几种实用场景,语句,安娜,场景,无极,至高 MySQL实现replace函数的几种实用场景 易采站长站,站长之家为您整理了MySQL实现replace函数的几种实用场 ...

  5. c++Selection Sort选择排序的实现算法(附完整源码)

    C++Selection Sort选择排序的实现算法 C++Selection Sort选择排序的实现算法完整源码(定义,实现,main函数测试) C++Selection Sort选择排序的实现算法 ...

  6. 逻辑回归(Logistic Regression, LR)又称为逻辑回归分析,是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。例如,我们可以将购买的概率设置为因变量,将用户的

    逻辑回归(Logistic Regression, LR)又称为逻辑回归分析,是分类和预测算法中的一种.通过历史数据的表现对未来结果发生的概率进行预测.例如,我们可以将购买的概率设置为因变量,将用户的 ...

  7. 给定一个9x9的网格,有81个正方形方块。我们在一些方块上涂上红色,满足(1)在水平、垂直、主对角线、副对角线方向都没有两个红色方块相邻(2)每行和每列正好包含两个红色方块。请问有多少种不同的染色方案

    给定一个9x9的网格,有81个正方形方块.我们在一些方块上涂上红色,同时满足(1)在水平.垂直.主对角线.副对角线方向都没有两个红色方块相邻(2)每行和每列正好包含两个红色方块.请问有多少种不同的染色 ...

  8. 正方形分成16份,将1到16填入其中。让行和列都是从大到小。问一共有多少种方法?...

    看了到面试题: 将正方形分成16份,将1到16填入其中.让行和列都是从大到小.问一共有多少种方法? 此题 解法有: 1. 穷举,基本不用考虑 复杂度O(16!). 2. 枚举+剪枝 .代码如下:得到答 ...

  9. 算法简介、7种算法分类

    一.算法 算法是以函数模板的形式实现的.常用的算法涉及到比较.交换.查找.搜索.复制.修改.移除.反转.排序.合并等等. 算法并非容器类型的成员函数,而是一些全局函数,要与迭代器一起搭配使用. 算法的 ...

最新文章

  1. HTC打算一条道走到黑,开始资助「脑后插管操作」
  2. python怎么学最快-零基础怎么样才能学好Python?Python入门必看
  3. ubuntu下codeblocks起步
  4. Ambari集群移动现有复制到另外地方或更改ip地址,导致各项服务组件上为黄色问号代表心跳丢失的解决方案(图文详解)(博主推荐)...
  5. qlineedit文本改变时_行文本编辑框QLineEdit及自动补全
  6. POJ 1821 单调队列+dp
  7. bash-shell详解
  8. 生成器模式 - 让配置代码更优雅
  9. java selenium用js点击_Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?...
  10. 学习vi和vim编辑器(8):全局替换(1)
  11. Web前端开发的框架可以应用到哪些地方
  12. JAXB处理java对象与xml格式之间的转换
  13. 使用tuned/tuned-adm工具动态调优你的CentOS系统
  14. 医院耗材管理系统开发_11
  15. JAVAEE框架数据库技术之12_oracle常用函数和高级查询子查询
  16. WinISO镜像文件使用简介
  17. 中国古代文化常识【1】
  18. 【物联网】思科扔下数颗物联网重磅炸弹,中国IoT圈却选择集体视而不见!
  19. 输入一个英文句子,翻转句子中单词的顺序,但单词内字符的顺序不变,句子中单词以单个空格符隔开,为简单起见,不带标点符号。 例如输入“I am a student”,则通过控制台输出“student a
  20. Unity 绘制物体运动轨迹

热门文章

  1. ftok()函数解析
  2. 反编译修改代码 破坏计算机系统,应急反编译修改C#编写的exe文件
  3. iOS---邓白氏编码的申请
  4. 深入理解MyBatis一级缓存和二级缓存【超详细源码解析】
  5. 绁炵粡缃戠粶瀵艰pdf,绁炵粡缃戠粶PDF
  6. WannaCry 主要利用的哪个漏洞进行攻击的?
  7. 服务器如何修改密码复杂度,服务器密码策略
  8. 001 物理机、虚拟机、有线网卡、无线网卡组局域网
  9. (赶快收藏吧) 整理了50个python小技巧
  10. squeezenet代码_轻量级CNN模型之squeezenet