1、分类和聚类的区别:

Classification (分类),对于一个classifier,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervised learning (监督学习),

Clustering (聚类),简单地说就是把相似的东西分到一组,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习,这在Machine Learning中被称作unsupervised learning (无监督学习).

2、常见的分类与聚类算法

所谓分类,简单来说,就是根据文本的特征或属性,划分到已有的类别中。如在自然语言处理NLP中,我们经常提到的文本分类便就是一个分类问题,一般的模式分类方法都可用于文本分类研究。常用的分类算法包括:决策树分类法,朴素贝叶斯分类算法(native Bayesian classifier)、基于支持向量机(SVM)的分类器,神经网络法,k-最近邻法(k-nearestneighbor,kNN),模糊分类法等等。

分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。

而K均值(K-mensclustering)聚类则是最典型的聚类算法(当然,除此之外,还有很多诸如属于划分法K中心点(K-MEDOIDS)算法、CLARANS算法;属于层次法的BIRCH算法、CURE算法、CHAMELEON算法等;基于密度的方法:DBSCAN算法、OPTICS算法、DENCLUE算法等;基于网格的方法:STING算法、CLIQUE算法、WAVE-CLUSTER算法;基于模型的方法)。

分类和聚类的区别以及各自的常见算法相关推荐

  1. 算法中分类与聚类的区别?

    算法中分类与聚类的区别? (1) 聚类分析研究如何在没有训练的条件下把样本划分为若干类: (2) 在分类中对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪       一类标记出来 ...

  2. 回归、分类与聚类:三大方向剖解机器学习算法的优缺点

    回归.分类与聚类:三大方向剖解机器学习算法的优缺点 2017-05-20 13:56:14    机器学习   数学    3 0 0 在本教程中,作者对现代机器学习算法进行一次简要的实战梳理.虽然类 ...

  3. 基本概念—回归、分类、聚类

    原文作者:机器之心 原文地址:回归.分类与聚类:三大方向剖解机器学习算法的优缺点 在本教程中,作者对现代机器学习算法进行了简要梳理.虽然类似的总结有很多,但是它们都没有真正解释清楚每个算法在实践中的好 ...

  4. 分类与聚类算法基础了解

    分类与聚类,监督学习与无监督学习 在讲具体的分类和聚类算法之前,有必要讲一下什么是分类,什么是聚类,以及都包含哪些具体算法或问题. Classification (分类),对于一个 classifie ...

  5. 机器学习四大基本模型:回归、分类、聚类、降维

    在本文中,我对现代机器学习算法进行了简要梳理,我通过查阅转载众多博客和资料,基于实践中的经验,讨论每个算法的优缺点,并以机器学习入门者的角色来看待各个模型. 主要内容来自<机器之心>:回归 ...

  6. 机器学习中分类与聚类的本质区别

    机器学习中分类与聚类的本质区别 机器学习中有两类的大问题,一个是分类,一个是聚类. 在我们的生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,下面,我们就具体来研究下 ...

  7. 文本分类和聚类有什么区别

    简单点说:分类是将一篇文章或文本自动识别出来,按照已经定义好的类别进行匹配,确定.聚类就是将一组的文章或文本信息进行相似性的比较,将比较相似的文章或文本信息归为同一组的技术.分类和聚类都是将相似对象归 ...

  8. 以最易懂的人话讲分类和聚类算法(建议分享和收藏)

    以最易懂的人话讲分类和聚类算法(建议分享) 今天在使用聚类方法进行客户价值分析时遇到了个问题,将我卡住了半个小时,实际上现在想来是一个很简单的问题,但是大家都知道,一个人脑子短路时就是会一个小学数学题 ...

  9. 二分类最优阈值确定_机器学习-分类和聚类

    ## 机器学习-分类和聚类.分类和回归.逻辑回归和KNN 分类和聚类的概念: ** 1.分类:使用已知的数据集(训练集)得到相应的模型,通过这个模型可以划分未知数据.分类涉及到的数据集通常是带有标签 ...

最新文章

  1. 藤摇椅游戏道具制作全流程讲解视频教程
  2. 存储本地_项目实战之本地存储篇
  3. ext-2.2.1下载地址
  4. python流程控制语句-python 流程控制语句
  5. asp.net控件开发(二)-简单属性
  6. 数据库中插入英文数字正常,插入中文错误解决方案
  7. copyonwritearraylist原理_Java集合干货——CopyOnWriteArrayList源码分析
  8. 童继龙:论ERP顾问的创新分享与专业精神
  9. layui爱准挂更新密码静态WEB页(临时)
  10. Docker学习文档之三 其他相关-Docker常用命令
  11. Java通过JNI/JNA加载dll库文件调用C接口,出现“java.lang.UnsatisfiedLinkError:包名.类.方法(参数)”问题
  12. python操作微信电脑版_【Python】【微信】+操作电脑版微信
  13. Linux磁盘管理(添加磁盘,分区、删除分区、格式化、挂载、卸载)
  14. python 字符串转字典的几种方法
  15. 自媒体平台数据统计分析爬虫之【趣头条】模拟登陆分析详解及数据统计接口详解
  16. msvcr120.dll丢失怎样修复?msvcr120.dll文件修复方法
  17. mysql同一个表比较_比较mysql中同一个表中的行
  18. java之详解坦克大战_Java之详解坦克大战游戏(一)
  19. Unity3D学习笔记(三、小球跑酷)
  20. 少儿机器人编程与软件编程区别有啥

热门文章

  1. flash as 基本应用
  2. mongodb客户端操作(MongoRepository)
  3. 视屏消音工具,支持指定词语,或者短句消音
  4. 【DDS】DDS与OpenDDS
  5. python画一个心形照片墙_表白神器!如何使用 Python 绘制爱心墙!
  6. 计算机中一个汉字占用 存储空间,一个字母、数字、汉字所占用的内存空间
  7. CVE-2016-6771: Android语音信箱伪造漏洞分析
  8. Photoshop CS6 实例之用色彩范围抠图并合成背景
  9. Tensorflow中简单的音频识别
  10. java filetime_java-FileTime转换为字符串