属性重要性的举例（定性数据聚类）

近日在解决一组定性数据的聚类问题，看文献时觉得论文中“基于属性重要性的定性数据聚类方法“举例不太容易理解（尤其是对我这种不喜欢看数学公式的人），所以写了这篇以备忘。

1.基础知识

粗糙集和等价关系可参考：

https://blog.csdn.net/windmxf/article/details/2288540（粗糙集理解之一：基本概念）点击打开链接

2.属性重要性

对于一个信息系统S={U,Q,V,f},一个属性C对于总属性Q的重要性体现在没有这个属性,由等价关系划分出的类族有多大差异。差异越大，属性C越重要。

3.例子

考虑所有属性时得到聚类结果为:{1, 23, 30, 31}、{2, 28}、{3}、{4, 15, 29, 33}、{5, 21}、{6, 16}、{7, 8}、{9, 10, 11, 22, 32}、{12, 17, 25}、{13, 27}、{14, 29}、{18, 20, 34}、{24}、{26}。基数一共是cardU=34

计算属性I的属性重要性：

对除属性I外其他属性进行聚类，得到结果与考虑所有属性时相同，此时的cardPOSQ-{I}(Q)=34

属性重要性=γQ(Q)-γQ-{I}(Q)=1-cardPOSQ-{I}(Q)/cardU=0

计算属性II的属性重要性：

对除属性I外其他属性进行聚类，得到结果为:{1, 3, 18, 20, 23, 30, 31, 34}、{2, 28}、{4}、{5, 21}、{6}、{7, 8}、{9, 10, 11, 22, 24, 32}、{12, 17, 25}、{13, 27}、{14, 19}、{15, 29, 33}、{16}、{26}。加粗为聚类结果与上面相同的。相同集合的基数为14

cardPOSQ-{II}(Q)=34-14=20

属性重要性=γQ(Q)-γQ-{II}(Q)=1-cardPOSQ-{II}(Q)/cardU=1-20/34=0.412

参考文献：

基于属性重要性的定性数据聚类分析及应用_朱建平

定性数据的聚类方法及其应用探析_曾玉钰

属性重要性的举例（定性数据聚类）相关推荐

【论文阅读】基于自适应小生境和 k 均值操作的数据聚类差分进化算法
文章目录原文题目摘要 I. 引言背景知识 Niching(小生境) 适应度共享参考文献提出 Niching Method 的动机 Niching Method 需要 Adaptive 的动机 ...
【特征工程】定性数据的编码
文章目录一.定性数据的分类 1.定序等级 2.定类等级二.定性数据的编码 1.定序等级编码 LabelEncoder() 2.定类等级编码 OneHotEncoder() get_dummies( ...
K-means 算法实现二维数据聚类
所谓聚类分析,就是给定一个元素集合D,其中每个元素具有n个观测属性,对这些属性使用某种算法将D划分成K个子集,要求每个子集内部的元素之间相似度尽可能高,而不同子集的元素相似度尽可能低.聚类分析是一种无 ...
ev3编程变量模块_英文视频教学翻译-机器人ev3编程学习的第二十讲：举例讲解数据变量模块编...
机器人ev3编程学习的第二十讲:举例讲解数据变量模块编- Rob Widger (为了容易理解,在原文的翻译时做了修改 by EV3-TOM) 这一节我给大家讲解使用变量模块的编程,这些我喜欢的例子也 ...
精通Web Analytics 2.0 （8）第六章：使用定性数据解答”为什么“的谜团
精通Web Analytics 2.0 (8) 第六章:使用定性数据解答"为什么"的谜团精通Web Analytics 2.0 : 用户中心科学与在线统计艺术第六章:使用定性数 ...
Log Cluster：日志数据聚类和模式挖掘算法
摘要:现代 IT 系统经常产生大量事件日志,事件模式发现就成了重要的日志管理任务.为完成此目标,数据挖掘方法已经预先给出了很多方式.本文提出 Log Cluster 算法,其继承了文本事件日志数据聚类 ...
python函一维聚类_聚类实战：一维数组数据聚类
大部分聚类方法针对的是多维数据,现实场景中还有可能存在以为数据的情况,针对以为数组的聚类和多维的数据有很大的不同,今天就来实战演练下: 需求内容:分析订单的价格分布常见方案:按照100为梯度,分析不 ...
文本聚类分析算法_Kmeans 算法实现二维数据聚类
所谓聚类分析,就是给定一个元素集合D,其中每个元素具有n个观测属性,对这些属性使用某种算法将D划分成K个子集,要求每个子集内部的元素之间相似度尽可能高,而不同子集的元素相似度尽可能低.聚类分析是一种无 ...
电商评论数据聚类实验报告
电商评论数据聚类实验报告--冯煜博目录实验目的整体思路数据介绍代码与实验步骤 4.1 爬虫代码 4.2 数据清洗 4.3 分词 4.4 去停用词 4.5 计算TF-IDF词频与聚类算法应用 ...

属性重要性的举例（定性数据聚类）

属性重要性的举例（定性数据聚类）相关推荐

最新文章

热门文章