分类与聚类,监督学习与无监督学习

在讲具体的分类和聚类算法之前,有必要讲一下什么是分类,什么是聚类,以及都包含哪些具体算法或问题。

  • Classification (分类),对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做 supervised learning (监督学习),
  • 而Clustering(聚类),简单地说就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习,这在Machine Learning 中被称作unsupervised learning (无监督学习).

分类与聚类的区别

聚类是未知结果会有多少类的,即可能聚成10个类也可能聚成100个类,只是根据某些相似性条件把数据聚合在一起,当然也有让用户自定义类数目的聚类算法,但这个数目也不好定的。聚类的数据集要比较多,这样才有东西聚成一堆一堆的。

分类是已知一共有多少类,并明确知道该类的特点,然后把未知的按一定规则分到某一个类中 分类可以多可以少,当然数据量大才能很好地说明分类算法的优异。但实际上分类算法在确定某些规则后,你可以只有一个未知的数据也可以把它分到某一个类别当中,但聚类如果只有一个未知的数据怎么聚啊

回归算法

分类算法是建立事例特征对应到分类的方法。分类必须是离散的,像信用卡的种类只有三种,决策的行为action是离散的。 如果我们要通过客户的收入、婚姻状况、职业等特征预测客户会使用信用卡消费多少金额时,分类算法就无能为力了, 因为消费金额是大于0的任意值。这时只能使用回归算法。

聚类

分类算法的目的是建立事例特征到类别的对应法则Y=F(X), x 为特征, Y为类别或者action.。但是前提是类别已经存在的,如已知动物可以分成哺乳期和非哺乳期, 银行发放的信用卡有三种,银卡,金卡,白金卡。

有时在分类存在之前,即分类不存在,要将现有的事例分为几类。

聚类的另一种用途是可以发现属性间隐含的关系。

序列聚类

序列聚类通过一系列事件发生的顺序聚类,来预测当一个事件

常见的分类与聚类算法

所谓分类分类,简单来说,就是根据文本的特征或属性,划分到已有的类别中。如在自然语言处理NLP中,我们经常提到的文本分类便就是一个分类问题,一般的模式分类方法都可用于文本分类研究。常用的分类算法包括:决策树分类法,朴素的贝叶斯分类算法(native Bayesian classifier)、基于支持向量机(SVM)的分类器,神经网络法,k-最近邻法(k-nearest neighbor,kNN),模糊分类法等等(所有这些分类算法日后在本blog内都会一一陆续阐述)。

分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。

而K均值(K-means clustering)聚类则是最典型的聚类算法(当然,除此之外,还有很多诸如属于划分法K-MEDOIDS算法、CLARANS算法;属于层次法的BIRCH算法、CURE算法、CHAMELEON算法等;基于密度的方法:DBSCAN算法、OPTICS算法、DENCLUE算法等;基于网格的方法:STING算法、CLIQUE算法、WAVE-CLUSTER算法;基于模型的方法,本系列后续会介绍其中几种)。

  监督学习与无监督学习

机器学习发展到现在,一般划分为监督学习(supervised learning),半监督学习(semi-supervised learning)以及无监督学习(unsupervised learning)三类。举个具体的对应例子,则是比如说,在NLP词义消岐中,也分为监督的消岐方法,和无监督的消岐方法。在有监督的消岐方法中,训练数据是已知的,即每个词的语义分类是被标注了的;而在无监督的消岐方法中,训练数据是未经标注的。

上面所介绍的常见的分类算法属于监督学习,聚类则属于无监督学习(反过来说,监督学习属于分类算法则不准确,因为监督学习只是说我们给样本sample同时打上了标签(label),然后同时利用样本和标签进行相应的学习任务,而不是仅仅局限于分类任务。常见的其他监督问题,比如相似性学习,特征学习等等也是监督的,但是不是分类)。

再举个例子,正如人们通过已知病例学习诊断技术那样,计算机要通过学习才能具有识别各种事物和现象的能力。用来进行学习的材料就是与被识别对象属于同类的有限数量样本。监督学习中在给予计算机学习样本的同时,还告诉计算各个样本所属的类别。若所给的学习样本不带有类别信息,就是无监督学习(浅显点说:同样是学习训练,监督学习中,给的样例比如是已经标注了如心脏病的,肝炎的;而无监督学习中,就是给你一大堆的样例,没有标明是何种病例的)。

而在支持向量机导论一书给监督学习下的定义是:当样例是输入/输出对给出时,称为监督学习,有关输入/输出函数关系的样例称为训练数据。而在无监督学习中,其数据不包含输出值,学习的任务是理解数据产生的过程。

分类与聚类算法基础了解相关推荐

  1. 以最易懂的人话讲分类和聚类算法(建议分享和收藏)

    以最易懂的人话讲分类和聚类算法(建议分享) 今天在使用聚类方法进行客户价值分析时遇到了个问题,将我卡住了半个小时,实际上现在想来是一个很简单的问题,但是大家都知道,一个人脑子短路时就是会一个小学数学题 ...

  2. 机器学习中常见的分类 回归 聚类算法小结

    Date: 2019-08-15 今天开始总结和复习机器学习知识点: 一句话概括: 1. 聚类:无监督学习,学习结果将产生几个集合,集合中的元素彼此相似: 2. 分类:有监督学习,学习结果将产生几个函 ...

  3. 分类和聚类的区别以及各自的常见算法

    1.分类和聚类的区别: Classification (分类),对于一个classifier,通常需要你告诉它"这个东西被分为某某类"这样一些例子,理想情况下,一个 classif ...

  4. 数据挖掘中聚类算法概述

    1 聚类方法概述 聚类方法是将物理或抽象对象的集合组成为由类似的对象组成的多个类的过程被成为聚类.由聚类所组成的簇是一组数据对象的集合,这些对象与同一簇中的对象彼此类似,与其他簇中的对象相异.在许多应 ...

  5. CW聚类算法原理 -- 译自《Chinese Whispers》论文

    Chinese Whispers-一个有效的图聚类算法及其在自然语言处理问题中的应用 克里斯.比曼 莱比锡大学,自然语言处理学院 注:由于这里不好复制图片和公式,展示并不理想,可在我的github:h ...

  6. 回归、分类与聚类:三大方向剖解机器学习算法的优缺点

    回归.分类与聚类:三大方向剖解机器学习算法的优缺点 2017-05-20 13:56:14    机器学习   数学    3 0 0 在本教程中,作者对现代机器学习算法进行一次简要的实战梳理.虽然类 ...

  7. 【机器学习基础】(六):通俗易懂无监督学习K-Means聚类算法及代码实践

    K-Means是一种无监督学习方法,用于将无标签的数据集进行聚类.其中K指集群的数量,Means表示寻找集群中心点的手段. 一. 无监督学习 K-Means 贴标签是需要花钱的. 所以人们研究处理无标 ...

  8. 【机器学习基础】通俗易懂无监督学习K-Means聚类算法及代码实践

    K-Means是一种无监督学习方法,用于将无标签的数据集进行聚类.其中K指集群的数量,Means表示寻找集群中心点的手段. 一. 无监督学习 K-Means 贴标签是需要花钱的. 所以人们研究处理无标 ...

  9. kmeans聚类目的干什么的_零基础学习Kmeans聚类算法的原理与实现过程

    内容导入: 聚类是无监督学习的典型例子,聚类也能为企业运营中也发挥者巨大的作用,比如我们可以利用聚类对目标用户进行群体分类,把目标群体划分成几个具有明显特征区别的细分群体,从而可以在运营活动中为这些细 ...

最新文章

  1. 【算法导论】【ACM】归并排序总结
  2. sync.Once 的前世今生
  3. java.io.eof_java.io.IOException: java.io.EOFException: Unexpected end of input stream错误
  4. poj3981 字符串替换-字符串的基本操作
  5. ODBC / OLEDB___DAO / RDO / ADO
  6. 吗 支持windows_M1能否原生支持Windows 苹果把问题抛给了微软
  7. 软考(二):网络中的那些事儿
  8. 语音识别怎么最终识别出字?
  9. 【pwnable.kr】passcode
  10. libQt5Core.so: undefined reference to `dlclose@GLIBC_2.4'
  11. HAR with Python WebDriver and BrowserMob Proxy
  12. Ruby 开发环境搭建
  13. 网络与信息安全应急处置预案
  14. (一)WLAN定义和基本架构
  15. 计算机网络:随机访问介质访问控制之CSMA/CA协议
  16. 1428C ABBB
  17. Xlookup、Vlookup请走开,万能的Wlookup函数来了!
  18. excel填充序列_猴哥讲述:excel的自动填充功能——自动填充单元格
  19. AutoCAD 快捷键
  20. 英超前瞻乐.fun|体育 中秋利物浦主场对战狼队 历史交战能否延续全胜

热门文章

  1. 使用 BigDecimal 进行浮点数运算
  2. 程序员,工作后还能找到女朋友吗?
  3. 西北大学软工专硕专业课面试可能会问到的问题
  4. 压敏电阻的工作原理,结构,分类与应用场总结
  5. php表白墙源码 怎么用,基于ThinkPHP框架开发的微信表白墙PHP源码
  6. 海康工业相机功能模块-参数保存、加载、批量复制参数
  7. 还在犹豫学不学编程技术?未来十年AI将改变世界,犹豫将错失高薪就业机会!
  8. Django 分页 (PageNumberPagination)
  9. 关于MIUI刷入谷歌GAPPS后卡FC的问题
  10. 数字逻辑与数字系统设计——最大项与最小项表达式