机器学习中有常见的两类大问题,一个是分类,一个是聚类。

分类与聚类的比较

聚类分析是研究如何在没有训练的条件下把样本划分为若干类。
在分类中,已知存在哪些类,即对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪一类标记出来。
聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类,聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有的记录组成不同的类或者说聚类,并且使得在这种分类情况下,以某种度量(例如:距离)为标准的相似性,在同一聚类之间最小化,而在不同聚类之间最大化。
与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据样本有类别标记。

简而言之:分类是事先有了类然后人为的去分;聚类是事先没有类,机器去聚出类。

分类

分类有如下几种说法,但表达的意思是相同的。

分类(classification): 分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个预先定义的类标号y中。

分类是根据一些给定的已知类别标号的样本,训练某种学习机器(即得到某种目标函数),使它能够对未知类别的样本进行分类。这属于supervised learning(监督学习)。

分类: 通过学习来得到样本属性与类标号之间的关系。
用自己的话来说,就是我们根据已知的一些样本(包括属性与类标号)来得到分类模型(即得到样本属性与类标号之间的函数),然后通过此目标函数来对只包含属性的样本数据进行分类。

分类算法的局限
分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。

聚类

聚类的相关的一些概念如下

而聚类指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,这在机器学习中被称作 unsupervised learning (无监督学习)
通常,人们根据样本间的某种距离或者相似性来定义聚类,即把相似的(或距离近的)样本聚为同一类,而把不相似的(或距离远的)样本归在其他类。
聚类的目标:组内的对象相互之间时相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类就越好。

分类与聚类的本质区别相关推荐

  1. 机器学习中分类与聚类的本质区别

    机器学习中分类与聚类的本质区别 机器学习中有两类的大问题,一个是分类,一个是聚类. 在我们的生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,下面,我们就具体来研究下 ...

  2. 文本分类和聚类有什么区别

    简单点说:分类是将一篇文章或文本自动识别出来,按照已经定义好的类别进行匹配,确定.聚类就是将一组的文章或文本信息进行相似性的比较,将比较相似的文章或文本信息归为同一组的技术.分类和聚类都是将相似对象归 ...

  3. 算法中分类与聚类的区别?

    算法中分类与聚类的区别? (1) 聚类分析研究如何在没有训练的条件下把样本划分为若干类: (2) 在分类中对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪       一类标记出来 ...

  4. 茶的分类计算机基础知识,【收藏】六大茶类的本质区别,看这篇就够了!(附茶叶分类图)...

    原标题:[收藏]六大茶类的本质区别,看这篇就够了!(附茶叶分类图) 其实六大茶类的划分标准和本质区别在于,制作工艺和茶叶中茶多酚的氧化程度.接下来就按茶叶发酵程度由低到高排序,简要介绍各类茶之间的区别 ...

  5. 分类和聚类的区别以及各自的常见算法

    1.分类和聚类的区别: Classification (分类),对于一个classifier,通常需要你告诉它"这个东西被分为某某类"这样一些例子,理想情况下,一个 classif ...

  6. 基本概念—回归、分类、聚类

    原文作者:机器之心 原文地址:回归.分类与聚类:三大方向剖解机器学习算法的优缺点 在本教程中,作者对现代机器学习算法进行了简要梳理.虽然类似的总结有很多,但是它们都没有真正解释清楚每个算法在实践中的好 ...

  7. linux 读写设备文件,linux-中块设备文件及字符设备文件的本质区别

    原标题:linux-中块设备文件及字符设备文件的本质区别 在LINUX系统文件类型分类的文章中我们提到了 块设备 和 字符设备文件,那么什么是块设备 字符设备文件呢?他们之间有什么本质上的区别呢? 设 ...

  8. 回归、分类与聚类:三大方向剖解机器学习算法的优缺点

    回归.分类与聚类:三大方向剖解机器学习算法的优缺点 2017-05-20 13:56:14    机器学习   数学    3 0 0 在本教程中,作者对现代机器学习算法进行一次简要的实战梳理.虽然类 ...

  9. 分类与聚类算法基础了解

    分类与聚类,监督学习与无监督学习 在讲具体的分类和聚类算法之前,有必要讲一下什么是分类,什么是聚类,以及都包含哪些具体算法或问题. Classification (分类),对于一个 classifie ...

  10. 回归、分类与聚类的分析与比较

    机器学习任务 在本次梳理中,我们将涵盖目前「三大」最常见机器学习任务: 回归方法 分类方法 聚类方法 说明: 本文的梳理不会涵盖具体领域的问题,比如自然语言处理. 本文也不会对每个算法都进行梳理.因为 ...

最新文章

  1. 2017暑期挖坑计划(持续更新中~)
  2. 【css】报错,错误代码77,CURLE_SSL_CACERT_BADFILE (77)解决方法
  3. python处理数据的优势-选择python进行数据分析的理由和优势
  4. Java项目中读取properties文件,以及六种获取路径的方法
  5. jquery在ie浏览器下中文乱码的问题
  6. 正则表达式匹配C++代码实现
  7. boost::mpl模块实现joint_view相关的测试程序
  8. Matlab repmat函数
  9. vue slot的使用
  10. php接口ip验证,php – IP地址验证帮助
  11. VTK(五)---内窥镜漫游(基于VMTK血管中心线提取)
  12. C语言队列解决舞伴匹配问题
  13. 冷高轮时间windows电脑屏幕保护
  14. 利用airodump-ng和aircrack-ng进行无线破解
  15. 一阶导数和二阶导数的一些性质
  16. Vue简易图片手风琴组件,包含宽度适应(JS操作CSS实现)
  17. 读《啤酒与尿布》——大型超市购物篮中商品关联性分析
  18. pgsql命令行直接输入密码登录
  19. 计算机退出安全模式,电脑安全模式的进入与退出的方法
  20. 共享单车、公交车辆位置、地铁等50+个交通数据集

热门文章

  1. .NET 5(C#) 将控制台程序(Console Application)发布成单个exe文件
  2. NokiaE6 java_全键盘塞班Anna手机 诺基亚E6详细评测
  3. 计算机开机b00t设置,电脑boot启动项设置
  4. (清华)华成英模拟电子技术基础PPT(完整版)
  5. 小程序啦啦外卖、码科跑腿、云贝外卖各种问题汇总解决对策
  6. 【C语言】标准内容介绍(C99)
  7. Hadoop安装教程(单机/伪分布式配置)
  8. Java关键字与保留字
  9. SAI2.0 ctrl+加号和ctrl+减号放大缩小无效 顺时针逆时针旋转快捷键无效
  10. 实对称矩阵不同特征值对应的特征向量都正交