近日在解决一组定性数据的聚类问题,看文献时觉得论文中“基于属性重要性的定性数据聚类方法“举例不太容易理解(尤其是对我这种不喜欢看数学公式的人),所以写了这篇以备忘。

1.基础知识

粗糙集和等价关系可参考:

https://blog.csdn.net/windmxf/article/details/2288540(粗糙集理解之一:基本概念)点击打开链接

2.属性重要性

对于一个信息系统S={U,Q,V,f},一个属性C对于总属性Q的重要性体现在没有这个属性,由等价关系划分出的类族有多大差异。差异越大,属性C越重要。

3.例子

考虑所有属性时得到聚类结果为:{1, 23, 30, 31}、{2, 28}、{3}、{4, 15, 29, 33}、{5, 21}、{6, 16}、{7, 8}、{9, 10, 11, 22, 32}、{12, 17, 25}、{13, 27}、{14, 29}、{18, 20, 34}、{24}、{26}。基数一共是cardU=34

计算属性I的属性重要性:

对除属性I外其他属性进行聚类 ,得到结果与考虑所有属性时相同,此时的cardPOSQ-{I}(Q)=34

属性重要性=γQ(Q)-γQ-{I}(Q)=1-cardPOSQ-{I}(Q)/cardU=0

计算属性II的属性重要性:

对除属性I外其他属性进行聚类 ,得到结果为:{1, 3, 18, 20, 23, 30, 31, 34}、{2, 28}、{4}、{5, 21}、{6}、{7, 8}、{9, 10, 11, 22, 24, 32}、{12, 17, 25}{13, 27}{14, 19}、{15, 29, 33}、{16}、{26}。加粗为聚类结果与上面相同的。相同集合的基数为14

cardPOSQ-{II}(Q)=34-14=20

属性重要性=γQ(Q)-γQ-{II}(Q)=1-cardPOSQ-{II}(Q)/cardU=1-20/34=0.412


参考文献:

基于属性重要性的定性数据聚类分析及应用_朱建平

定性数据的聚类方法及其应用探析_曾玉钰

属性重要性的举例(定性数据聚类)相关推荐

  1. 【论文阅读】基于自适应小生境和 k 均值操作的数据聚类差分进化算法

    文章目录 原文题目 摘要 I. 引言 背景知识 Niching(小生境) 适应度共享 参考文献 提出 Niching Method 的动机 Niching Method 需要 Adaptive 的动机 ...

  2. 【特征工程】定性数据的编码

    文章目录 一.定性数据的分类 1.定序等级 2.定类等级 二.定性数据的编码 1.定序等级编码 LabelEncoder() 2.定类等级编码 OneHotEncoder() get_dummies( ...

  3. K-means 算法实现二维数据聚类

    所谓聚类分析,就是给定一个元素集合D,其中每个元素具有n个观测属性,对这些属性使用某种算法将D划分成K个子集,要求每个子集内部的元素之间相似度尽可能高,而不同子集的元素相似度尽可能低.聚类分析是一种无 ...

  4. ev3编程变量模块_英文视频教学翻译-机器人ev3编程学习的第二十讲:举例讲解数据变量模块编...

    机器人ev3编程学习的第二十讲:举例讲解数据变量模块编- Rob Widger (为了容易理解,在原文的翻译时做了修改 by EV3-TOM) 这一节我给大家讲解使用变量模块的编程,这些我喜欢的例子也 ...

  5. 精通Web Analytics 2.0 (8) 第六章:使用定性数据解答”为什么“的谜团

    精通Web Analytics 2.0 (8) 第六章:使用定性数据解答"为什么"的谜团 精通Web Analytics 2.0 : 用户中心科学与在线统计艺术 第六章:使用定性数 ...

  6. Log Cluster:日志数据聚类和模式挖掘算法

    摘要:现代 IT 系统经常产生大量事件日志,事件模式发现就成了重要的日志管理任务.为完成此目标,数据挖掘方法已经预先给出了很多方式.本文提出 Log Cluster 算法,其继承了文本事件日志数据聚类 ...

  7. python函一维聚类_聚类实战:一维数组数据聚类

    大部分聚类方法针对的是多维数据,现实场景中还有可能存在以为数据的情况,针对以为数组的聚类和多维的数据有很大的不同,今天就来实战演练下: 需求内容:分析订单的价格分布 常见方案:按照100为梯度,分析不 ...

  8. 文本聚类分析算法_Kmeans 算法实现二维数据聚类

    所谓聚类分析,就是给定一个元素集合D,其中每个元素具有n个观测属性,对这些属性使用某种算法将D划分成K个子集,要求每个子集内部的元素之间相似度尽可能高,而不同子集的元素相似度尽可能低.聚类分析是一种无 ...

  9. 电商评论数据聚类实验报告

    电商评论数据聚类实验报告--冯煜博 目录 实验目的 整体思路 数据介绍 代码与实验步骤 4.1 爬虫代码 4.2 数据清洗 4.3 分词 4.4 去停用词 4.5 计算TF-IDF词频与聚类算法应用 ...

最新文章

  1. java两个函数名字相同_为什么C不允许两个具有相同名称的函数/类模板,只有非类型模板参数(整数类型)的类型不同?...
  2. mysql原生查询单条数据_原生查询数据库流程
  3. 一句话设置当前控制器的view跟随键盘起伏,妈妈再也不用担心键盘挡住输入框了...
  4. 盘点2021年Linux界的12件大事
  5. 开年趣图汇总:对不起,让你笑了这么久
  6. 深度学习在商户挂牌语义理解的实践
  7. docker 容器开启ssh服务
  8. DiQuick Web UI 框架 V1.3.2 版本更新
  9. react+百度地图实现自定义图标
  10. 数据库mysql,oracle,sqlite,mariadb 相关收藏
  11. 计算机之父童年的故事ppt,24计算机之父童年的故事
  12. 商机无限!在政府门户网站升级改造中掘金
  13. web测试----死链检查(Xenu)
  14. VC6.0修改工程名字方法
  15. 【基础入门题026】佩尔数列Pell(n)
  16. 客客威客短信接口修改(kppw) 配置
  17. 聊聊不确定性和确定性------化不确定性为确定性
  18. 【linux】centos7 升级gcc版本
  19. arch linux安装ssh,通过ssh远程安装arch linux
  20. 自学C++——自定义数据类型

热门文章

  1. 解决ajax请求返回Json无法解析字符的问题
  2. spring:setter注入构造器注入注解注入
  3. 【钱包·RPC搭建】以太坊主网节点搭建
  4. 一分钟让你了解什么是ELP
  5. Dell R710 iDRAC6 远程控制卡设置
  6. 分布式持久内存文件系统Octopus(ATC-17 )分析(一)
  7. 分布式持久内存文件系统Octopus(ATC-17 )分析(四)
  8. 记一次简单的自动投票操作
  9. 保姆级redis6全流程学习和redis秒杀全流程
  10. winds主机部署zabbix_agent