聚类算法

聚类算法是机器学习中经典的非监督学习算法之一,相比于分类算法,聚类不依赖预定义的样本标签,而是让算法通过对数据的学习从而找到其内部的规律,该算法对有相同特征的样本进行聚类,聚类的时候,我们并不关心某一类是什么,有一句话叫做“物以类聚,人以群分”。聚类,通俗地说,就是指将相似元素的聚集到一起作为一个类别。

k均值算法

在机器学习中聚类算法有很多,k均值算法是最经典的聚类算法,这个算法的目的就是要找到数据的分组,分组的数目由K指定。这个算法基于提供的特征,迭代地将数据分配个K个组别的其中一个。数据是基于数据相似性被聚类的,相似性度量是基于距离计算的,最典型的就是欧几里得距离。我们可以使用欧几里得距离计算给定两点之间的距离,公式如下:

我们可以将聚类算法的步骤总结为:

1.从集合D中随机选取k个元素,作为k个簇的各自的中心;

2.分别计算剩下的元素到k个簇中心的相异度,将这些元素分别划归到相异度最低的簇;

3.根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有的元素各自维度的算术平均数;

4.将D中全部元素按照新的中心重新聚类;

5.重复第4步,直到聚类结果不再变化;

6.将结果输出。

聚类算法寻找美国职业篮球联赛中的超级强队

我们知道在NBA中虽然无弱队,但是还是有档次划分的,比如有的球队是季后赛球队,而有的球队是摆烂球队,有的球队则是争冠球队,所以我们认为球队的实力是有类别的,只不过这个类别的定义相对模糊,我们将使用K-means算法对NBA中的球队进行聚类,然后看哪些球队是一个类别的。

如图所示是NBA联盟中近四年的30支球队的常规赛的胜场数,以及季后赛的胜场数,我们将其分别看为特征x1和特征x2,这样我们就有了训练集样本,下面我们使用k均值算法进行聚类,假如我们将所有样本分为5类,所以令k = 5,即将30支球队分成5个级别,最终k均值算法的结果为:

我们可以看到30支球队被分为5个类别,NBA联盟中的超级强队是骑士队和勇士队,而在当时在摆烂的球队是76人和湖人队,其它的球队分别属于其它的三个类别,我们可以将其定义为季后赛球队,以及弱队等等。

我们可以清楚的看到,我们使用k均值算法成功的将NBA联盟中的球队分为五个类别,我们可以看到骑士和勇士队一档,而76人和湖人队一档。这就是机器学习聚类算法在美国职业篮球联赛NBA中的超级强队中的应用。

基于机器学习聚类算法寻找美国职业篮球联赛NBA中的超级强队相关推荐

  1. 【matlab】机器学习与人工智能期末课设,基于 K-means 聚类算法的图像区域分割系统

    基于 K-means 聚类算法的图像区域分割系统主要由两部分组成,分别是登录界面和主界面.用户登录模块负责用户的登录功能,用户输入账号和密码正确后,进入主界面,失败则跳出弹窗,提示用户登录失败.这是用 ...

  2. 基于K-means聚类算法进行客户人群分析

    摘要:在本案例中,我们使用人工智能技术的聚类算法去分析超市购物中心客户的一些基本数据,把客户分成不同的群体,供营销团队参考并相应地制定营销策略. 本文分享自华为云社区<基于K-means聚类算法 ...

  3. 基于 CFSFDP 聚类算法的电信客户价值分析

    温馨提示:文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 1. 项目背景 电信行业是典型的数据密集型行业,只有正确地分析用户数据,发现更多商机,做出正确的决策,从而更好的向用 ...

  4. 基于K-Means聚类算法的主颜色提取

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 01.简介 本期我们将一起实现基于K-Means聚类算法的主色提取 ...

  5. 基于Kmeans聚类算法的图像分割(色彩分割)实战

    基于Kmeans聚类算法的图像分割(色彩分割)实战 图像分割是将一幅图像分割成多个像素区域的任务.属于同一对象类型的所有像素都被分配到同一类别下.图像分类是给一副完整的图像一个类别,目标检测是检测到图 ...

  6. 聚类dbi指数_一种基于DBI-PD聚类算法的异常检测机制

    一种基于 DBI-PD 聚类算法的异常检测机制 丁姝郁 [期刊名称] <电脑开发与应用> [年 ( 卷 ), 期] 2015(000)002 [摘要] 分析了网络数据维数和检测准确度之间的 ...

  7. 炼数成金数据分析课程---17、机器学习聚类算法(后面要重点看)

    炼数成金数据分析课程---17.机器学习聚类算法(后面要重点看) 一.总结 一句话总结: 大纲+实例快速学习法 主要讲解常用聚类算法(比如K-means等)的原理及python代码实现:后面学习聚类的 ...

  8. 机器学习——聚类算法

    文章目录 聚类算法 1 k-Means算法 1.1 基本概念 1.2 k-Means算法原理 1.3 k-Means算法的可视化演示 1.4 实验 2 DBSCAN算法 2.1 基本概念 2.2 DB ...

  9. 基于密度聚类算法的改进

    基于密度算法的改进 本篇博客来自我的github小项目,如果对您有帮助,希望您前去点星 ! 使用基于密度的聚类算法,进行高维特征的聚类分析,从高维数据中提取出类似的有用信息,从而简化了特征数量,并且去 ...

最新文章

  1. 关于ubuntu系统无线网络网速慢的解决方法
  2. HashMap 面试常见的6连问,你能扛得住吗?
  3. java和seo学那个_Java和PHP编程语言哪个比较厉害?
  4. MySQL查询日期类数据常用函数
  5. PDF文件不支持直接编辑 PDF如何转化为可以编辑的Word文档
  6. 45个python入门案例_给Python小白看的10个使用案例,入门Python就在这里了
  7. 浅析数据结构-图的基本概念
  8. Description Resource Path Location Type The import collides with another import statement
  9. PatchMatch分析
  10. 电商行业如何投放UC头条信息流广告?UC广告投放的扣费模式
  11. kaggle机器学习教程(Python实现)
  12. Android神奇“控件”-----RemoteViews
  13. eclipse 反应慢优化
  14. 《魔兽世界》10个让你感动流泪的故事
  15. 华夫饼为什么不松软_华夫饼自己在家做,不加泡打粉,松软又可口,操作简单,一学就会...
  16. ThinkPhp6框架基本使用实践教程
  17. android 8(O)预装APP到data/app目录
  18. html傻瓜式制作软件,云梦html制作工具(html傻瓜式制作)
  19. 3dmax 视图切换
  20. 转码机器人(微信转码,小程序转码)

热门文章

  1. 贝塞尔公式推导与物体跟随复杂曲线的轨迹运动
  2. C语言 把字符串s中所有小写字母转换为大写字母,其他字符不变
  3. Activiti6自学之路(九)——请假申请和请假审批数据库表设计
  4. Kubernetes容器网络(二):Calico网络原理
  5. 微信公共平台开发(1)
  6. 因子的有效性检验(IC)
  7. php高效轮询,PHP实现长轮询
  8. 大功率变频电源对运行环境要求究竟有多高?
  9. 当当网购物车和商品列表
  10. win7频繁提示资源管理器已停止工作解决办法