机器学习中分类与聚类的本质区别

机器学习中有两类的大问题,一个是分类,一个是聚类
在我们的生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,下面,我们就具体来研究下分类与聚类之间在数据挖掘中本质的区别。

分类

分类有如下几种说法,但表达的意思是相同的。

  • 分类(classification):分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y中。

  • 分类是根据一些给定的已知类别标号的样本,训练某种学习机器(即得到某种目标函数),使它能够对未知类别的样本进行分类。这属于supervised learning(监督学习)。

  • 分类:通过学习来得到样本属性与类标号之间的关系。
    用自己的话来说,就是我们根据已知的一些样本(包括属性与类标号)来得到分类模型(即得到样本属性与类标号之间的函数),然后通过此目标函数来对只包含属性的样本数据进行分类。

分类问题的应用场景

分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上,分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。最常见的分类方法是逻辑回归,或者叫逻辑分类。

分类算法的局限

分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。

聚类

聚类的相关的一些概念如下

  • 而聚类指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,这在机器学习中被称作 unsupervised learning (无监督学习)
  • 通常,人们根据样本间的某种距离或者相似性来定义聚类,即把相似的(或距离近的)样本聚为同一类,而把不相似的(或距离远的)样本归在其他类。
  • 聚类的目标:组内的对象相互之间时相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类就越好。

分类与聚类的比较

  • 聚类分析是研究如何在没有训练的条件下把样本划分为若干类。
  • 在分类中,对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪一类标记出来。
  • 聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类,聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有的记录组成不同的类或者说聚类,并且使得在这种分类情况下,以某种度量(例如:距离)为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化。
  • 与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据样本有类别标记。

要说明内容

因为最近在研究者两种算法,也就刚好用来说一下分类和聚类不同的算法。
SVM与二分K均值算法的区别之一:支持向量机(SVM)是一种分类算法,二分k均值算法属于一种聚类算法。

在《数据挖掘导论(完整版)》这本书第306页中有这样一句话:聚类可以看做一种分类,它用类标号创建对象的标记,然而只能从数据导出这些标号。相比之下,前面所说的分类是监督分类(supervised classification):即使用有类标号已知的对象开发的模型,对新的、无标记的对象赋予类标号。为此,有时称聚类分析为非监督分类(unsupervised classification)。在数据挖掘中,不附加任何条件使用术语分类时,通常是指监督分类。

因此,SVM与二分K均值算法的区别之一:支持向量机(SVM)是一种监督分类算法,二分k均值算法属于一种非监督分类算法

机器学习中分类与聚类的本质区别相关推荐

  1. 算法中分类与聚类的区别?

    算法中分类与聚类的区别? (1) 聚类分析研究如何在没有训练的条件下把样本划分为若干类: (2) 在分类中对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪       一类标记出来 ...

  2. 机器学习中的Bias,Error,Variance的区别

    机器学习中的Bias,Error,Variance的区别 @(Machine Learning) 名词解释 Error | 误差 Bias | 偏差 – 衡量准确性 Variance | 方差 – 衡 ...

  3. 机器学习树叶分类与聚类

    机器学习树叶分类与聚类 目录 1导入包 2查看数据 3读取训练集和测试集 3.1画出相关性矩阵(需要根据相关性矩阵,选择特征进行特征工程) 3.2数据标准化 4讨论是否需要PCA 4.1没有经过PCA ...

  4. HTML中click()和onclick()的本质区别与案例和解释

    HTML中click()和onclick()的本质区别与案例和解释:分为四点: 第一点:英文翻译: On的意思为 :打开,接通,鼠标事件的触发条件: 表明onclick()代表的是一个事件:而在HTM ...

  5. 文本分类和聚类有什么区别

    简单点说:分类是将一篇文章或文本自动识别出来,按照已经定义好的类别进行匹配,确定.聚类就是将一组的文章或文本信息进行相似性的比较,将比较相似的文章或文本信息归为同一组的技术.分类和聚类都是将相似对象归 ...

  6. 2021-02-02美赛前MATLAB的学习笔记(机器学习(分类、聚类、深度学习))

    机器学习 机器学习是一中工具.方法,通过对机器训练,进而学习到某种规律或者模式,并建立预测未来结果的模型. 机器学习可以分为监督学习和无监督学习 有监督学习方法,是提供答案的,主要包括分类和回归 无监 ...

  7. 机器学习中特征值分解与奇异值分解的区别及应用

    前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的.在上篇文章中便是基于特征值分解的一种解释.特征值和奇异值在大部分人的印象中, ...

  8. 机器学习中分类算法的优缺点

    决策树 一.  决策树优点 1.决策树易于理解和解释,可以可视化分析,容易提取出规则. 2.可以同时处理标称型和数值型数据. 3.测试数据集时,运行速度比较快. 4.决策树可以很好的扩展到大型数据库中 ...

  9. 机器学习中分类和回归模型的评价指标

    分类算法的效果评估 1,准确率accuracy_score from sklearn.metrics import accuracy_score 2,精确率/查准率precision_score fr ...

最新文章

  1. 《精通自动化测试框架设计》—第1章 1.3节五天太久,还能压缩吗
  2. 【php】运算符优先级界定
  3. java WebSocket实现一对一消息和广播消息Demo
  4. php指定长度 分割整形,php指定长度分割字符串str_split函数用法示例
  5. geek软件_社团秀@UNC新媒体协会@管理会计研学社@Geek社团
  6. Dubbo入门(一)
  7. 【Python】判断字符串中是否含有某个子串
  8. Spring MVC_Hello World
  9. 支付宝用大数据憋死伪基站骗子
  10. 直播预告丨Oracle DataGuard 备份恢复最佳实践
  11. 一个简单的键值存储微服务
  12. Virtual Box下配置Host-Only联网方式详解
  13. coreldraw x4如何出血_CorelDRAW软件出血位详解
  14. 【转载】mysql view prevents operation处理
  15. php 获取微博cookie,如何获取微博 Cookie
  16. 基于STM32的反电动势无传感BLDC控制
  17. “超越融合 异筑信创”,AntDB数据库携手超云等生态伙伴共建信创大生态
  18. Git使用-git init
  19. 每天学点5G-5G UDM
  20. 相振幅耦合 matlab6,课程设计基于MATLAB的2×2光纤定向耦合器设计.doc

热门文章

  1. 工业大数据应用技术国家工程实验室
  2. Active/Active与Active/Passive
  3. passive-interface 总结整理
  4. 《小王爱迁移》文章链接
  5. AVProVideo☀️九、“今朝若能同淋雪,此生也算共白头”。一曲《南山雪》,学习给视频做字幕。
  6. 一位沪漂 11 年的程序员老兵,回老家了!
  7. Vue 使用 yarn 报错
  8. 股票代码与上市公司板块分类
  9. 知名IT企业待遇一览表
  10. adb进阶知识,如何过滤只查看某一个app的日志