关键词:性能度量;距离计算;VDM

9.1聚类任务

聚类任务是无监督学习任务,我们只需要有样本,而不需要有标签。聚类试图将数据集中的样本划分为若干个子集,每个子集称为一个簇(cluster)。簇其实就是类,一簇就是一类。而没有标签,聚类算法把样本划分到不同的簇,算法是没办法告诉我们这些簇具体代表什么意思。所以,聚类算法仅能形成簇的结构,簇所对应的概念语义需要人为的把握和命名。
由于没有类别标签,聚类算法涉及的两个最基本问题:性能度量 和距离计算

9.2性能度量

由于没有类别标签,我们如何评价一个聚类算法的优劣呢?直观上看,我们希望“物以类聚”,即同一簇的样本尽可能彼此相似,不同簇的样本尽可能不同。也就是簇内相似度(intra-cluster similarity)高,簇间相似度 (inter-cluster similarity)低

聚类性能度量可分两类:第一,有参考模型可比较的,称之为外部指标(external index);第二,直接考察聚类结果,称之为内部指标(internal index),例如 K-means算法。

针对有参考模型的性能度量,通常有以下指标:JC系数(Jaccard Coefficient);FM指数(Fowlkes and Mallows Index,FMI);Rand指数(Rand Index,RI)
针对考察内部结果,有DB指数(Davies-Bouldin Index, DBI);Dunn指数(Dunn Index,DI)

9.3 距离计算

聚类聚类,就是把距离近的归为一类。如何衡量两个样本之间的距离呢?常用的距离函数有:欧氏距离;曼哈顿距离(街区距离);切比雪夫距离等等。而欧氏距离和曼哈顿距离可以用一个通式表示,即闵可夫斯基距离(Minkowski distance) :

当p=1时,

就是曼哈顿距离
当p=2时

就是欧式距离

当属性是 有序的关系时,采用闵可夫斯基计算距离是没问题的,然而当属性是无序属性,例如{飞机,火车,轮船},很显然地,我们不能直接在属性值上采用闵可夫斯基距离。对于无序属性可采用VDM(Value Difference Metric,Stanfill and Waltz,1986)(p200,如果用到,翻书)

【机器学习-西瓜书】九、聚类:性能度量;距离计算相关推荐

  1. 机器学习西瓜书-1-2章

    学习目标: 概览机器学习西瓜书 1.2章 学习内容: 第一章 绪论 1.1 基本术语 1.2 假设空间 1.3 归纳偏好 1.4 发展历程 第二章 模型评估与选择 2.1 经验误差与过拟合 2.2 评 ...

  2. 机器学习西瓜书南瓜书 神经网络

    机器学习西瓜书&南瓜书 神经网络 1. 神经元模型 神经网络:由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实事件物体所做出的交互反应. 神经网络最基本的成分 ...

  3. 机器学习西瓜书(周志华)第七章 贝叶斯分类器

    第七章 贝叶斯分类器 1. 贝叶斯决策论 1.1 先验分布 1.2 后验分布 1.3 似然估计 1.4 四大概率在贝叶斯分类中指代含义 1. 朴素贝叶斯 7. 课后练习参考答案 1. 贝叶斯决策论 贝 ...

  4. 周志华-机器学习西瓜书-第三章习题3.3 编程实现对率回归

    本文为周志华机器学习西瓜书第三章课后习题3.3答案,编程实现对率回归,数据集为书本第89页的数据 使用tensorflow实现过程 # coding=utf-8 import tensorflow a ...

  5. 小白学机器学习西瓜书-第三章对数几率回归

    小白学机器学习西瓜书-第三章对数几率回归 3.3 对数几率回归 3.3.1 对数几率函数 3.3.1 估计参数 上一部分我们介绍了线性回归,包括简单的二元回归和多元回归,这两个主要解决的是拟合预测的问 ...

  6. 传统的线性降维方法效果不佳。_机器学习西瓜书简明笔记(11)降维与度量学习...

    上篇主要介绍了几种常用的聚类算法,首先从距离度量与性能评估出发,列举了常见的距离计算公式与聚类评价指标,接着分别讨论了K-Means.LVQ.高斯混合聚类.密度聚类以及层次聚类算法.K-Means与L ...

  7. 聚类性能度量指标及距离计算

    Python实现KMeans算法 1.外部指标 将聚类结果与某个"参考模型进行比较" 每次抽出两个样本,讨论所属聚类结果和参考模型,确定四个值: a:聚类结果同属于一类,参考模型同 ...

  8. 机器学习-西瓜书、南瓜书第三章

    线性模型 基本形式 一.线性回归 回归任务最常用的性能度量是均方误差,因为均方误差有比较好的几何意义,对应了最常用的**"欧氏距离",最小二乘法就是基于均方误差进行模型求解的. 求 ...

  9. [机器学习]西瓜书南瓜书学习(更新中)

    B站网课学习视频 南瓜书datawhale开源内容 南瓜书github开源内容 什么是机器学习 概念介绍 人工智能:让机器变得像人一样拥有智能的学科 机器学习:让计算机像人一样能从数据中学习出规律的一 ...

  10. 机器学习西瓜书各章详细目录定位

    第一章 绪论 1.1 引言(P1) 1.2 基本术语(P2) 1.3 假设空间(P4) 1.4 归纳偏好(P6) 1.5 发展历程(P10) 1.6 应用现状(P13) 1.7 阅读材料(P16)   ...

最新文章

  1. UIActivityViewController: LaunchServices: invalidationHandler called
  2. 为什么RESTful很糟糕?
  3. jsoup获得css,Jsoup代码解读之五-实现一个CSS Selector
  4. java中instanceof 详解_java中的instanceof用法详解
  5. 红黑树实现——STL中的map
  6. CALL 和 ret 指令
  7. (5)ISE14.7 开发流程(FPGA不积跬步101)
  8. 相对定位与绝对定位联合使用
  9. Win8 忘记密码 解决办法【在E450c实测有效】
  10. pc机器人软件哪里买_买电脑,机器人仿真,3D建模软件,PLC程序,需要什么配置的电脑?...
  11. 《持续集成实践指南》第3章 Gitlab基本配置与使用
  12. linux服务器上查看显卡(nvidia)型号
  13. 欢迎访问4W家庭理财主页!
  14. windows触发器运行python脚本报错0x1问题解决办法
  15. 【学习笔记】ROS-移动机器人导航相关
  16. 真正可以根治高度近视眼的方法(转载)
  17. Headless CMS Sanity 数据建模——定义文档内容的结构
  18. 云知声AI开放平台之语音合成技术:让AI人工智能照亮智慧生活
  19. 2022-09-01 网工进阶(二十九) DHCP-概述、工作原理、报文格式、分配IP地址顺序、地址租期与续租、中继(relay)、Snooping
  20. springboot租房管理系统源码分享

热门文章

  1. Powershell创建数组
  2. 测试转开发,一个女孩子短短的工作心得
  3. VS2012连接数据库问题
  4. hadoop 集群间数据迁移
  5. 用MediaPlayer record audio简例
  6. python 解析json typeerror_TypeError:在使用Python解析JSON时,字符串索引必须是整数?...
  7. 中文代码示例之Vuejs入门教程(一)
  8. 【C语言 基础】什么流程控制?
  9. [数据结构与算法] (顺序)线性表简单demo程序
  10. CAD数据与ArcGIS数据的互转换