属性重要性的举例(定性数据聚类)
近日在解决一组定性数据的聚类问题,看文献时觉得论文中“基于属性重要性的定性数据聚类方法“举例不太容易理解(尤其是对我这种不喜欢看数学公式的人),所以写了这篇以备忘。
1.基础知识
粗糙集和等价关系可参考:
https://blog.csdn.net/windmxf/article/details/2288540(粗糙集理解之一:基本概念)点击打开链接
2.属性重要性
对于一个信息系统S={U,Q,V,f},一个属性C对于总属性Q的重要性体现在没有这个属性,由等价关系划分出的类族有多大差异。差异越大,属性C越重要。
3.例子
考虑所有属性时得到聚类结果为:{1, 23, 30, 31}、{2, 28}、{3}、{4, 15, 29, 33}、{5, 21}、{6, 16}、{7, 8}、{9, 10, 11, 22, 32}、{12, 17, 25}、{13, 27}、{14, 29}、{18, 20, 34}、{24}、{26}。基数一共是cardU=34
计算属性I的属性重要性:
对除属性I外其他属性进行聚类 ,得到结果与考虑所有属性时相同,此时的cardPOSQ-{I}(Q)=34
属性重要性=γQ(Q)-γQ-{I}(Q)=1-cardPOSQ-{I}(Q)/cardU=0
计算属性II的属性重要性:
对除属性I外其他属性进行聚类 ,得到结果为:{1, 3, 18, 20, 23, 30, 31, 34}、{2, 28}、{4}、{5, 21}、{6}、{7, 8}、{9, 10, 11, 22, 24, 32}、{12, 17, 25}、{13, 27}、{14, 19}、{15, 29, 33}、{16}、{26}。加粗为聚类结果与上面相同的。相同集合的基数为14
cardPOSQ-{II}(Q)=34-14=20
属性重要性=γQ(Q)-γQ-{II}(Q)=1-cardPOSQ-{II}(Q)/cardU=1-20/34=0.412
参考文献:
基于属性重要性的定性数据聚类分析及应用_朱建平
定性数据的聚类方法及其应用探析_曾玉钰
属性重要性的举例(定性数据聚类)相关推荐
- 【论文阅读】基于自适应小生境和 k 均值操作的数据聚类差分进化算法
文章目录 原文题目 摘要 I. 引言 背景知识 Niching(小生境) 适应度共享 参考文献 提出 Niching Method 的动机 Niching Method 需要 Adaptive 的动机 ...
- 【特征工程】定性数据的编码
文章目录 一.定性数据的分类 1.定序等级 2.定类等级 二.定性数据的编码 1.定序等级编码 LabelEncoder() 2.定类等级编码 OneHotEncoder() get_dummies( ...
- K-means 算法实现二维数据聚类
所谓聚类分析,就是给定一个元素集合D,其中每个元素具有n个观测属性,对这些属性使用某种算法将D划分成K个子集,要求每个子集内部的元素之间相似度尽可能高,而不同子集的元素相似度尽可能低.聚类分析是一种无 ...
- ev3编程变量模块_英文视频教学翻译-机器人ev3编程学习的第二十讲:举例讲解数据变量模块编...
机器人ev3编程学习的第二十讲:举例讲解数据变量模块编- Rob Widger (为了容易理解,在原文的翻译时做了修改 by EV3-TOM) 这一节我给大家讲解使用变量模块的编程,这些我喜欢的例子也 ...
- 精通Web Analytics 2.0 (8) 第六章:使用定性数据解答”为什么“的谜团
精通Web Analytics 2.0 (8) 第六章:使用定性数据解答"为什么"的谜团 精通Web Analytics 2.0 : 用户中心科学与在线统计艺术 第六章:使用定性数 ...
- Log Cluster:日志数据聚类和模式挖掘算法
摘要:现代 IT 系统经常产生大量事件日志,事件模式发现就成了重要的日志管理任务.为完成此目标,数据挖掘方法已经预先给出了很多方式.本文提出 Log Cluster 算法,其继承了文本事件日志数据聚类 ...
- python函一维聚类_聚类实战:一维数组数据聚类
大部分聚类方法针对的是多维数据,现实场景中还有可能存在以为数据的情况,针对以为数组的聚类和多维的数据有很大的不同,今天就来实战演练下: 需求内容:分析订单的价格分布 常见方案:按照100为梯度,分析不 ...
- 文本聚类分析算法_Kmeans 算法实现二维数据聚类
所谓聚类分析,就是给定一个元素集合D,其中每个元素具有n个观测属性,对这些属性使用某种算法将D划分成K个子集,要求每个子集内部的元素之间相似度尽可能高,而不同子集的元素相似度尽可能低.聚类分析是一种无 ...
- 电商评论数据聚类实验报告
电商评论数据聚类实验报告--冯煜博 目录 实验目的 整体思路 数据介绍 代码与实验步骤 4.1 爬虫代码 4.2 数据清洗 4.3 分词 4.4 去停用词 4.5 计算TF-IDF词频与聚类算法应用 ...
最新文章
- java两个函数名字相同_为什么C不允许两个具有相同名称的函数/类模板,只有非类型模板参数(整数类型)的类型不同?...
- mysql原生查询单条数据_原生查询数据库流程
- 一句话设置当前控制器的view跟随键盘起伏,妈妈再也不用担心键盘挡住输入框了...
- 盘点2021年Linux界的12件大事
- 开年趣图汇总:对不起,让你笑了这么久
- 深度学习在商户挂牌语义理解的实践
- docker 容器开启ssh服务
- DiQuick Web UI 框架 V1.3.2 版本更新
- react+百度地图实现自定义图标
- 数据库mysql,oracle,sqlite,mariadb 相关收藏
- 计算机之父童年的故事ppt,24计算机之父童年的故事
- 商机无限!在政府门户网站升级改造中掘金
- web测试----死链检查(Xenu)
- VC6.0修改工程名字方法
- 【基础入门题026】佩尔数列Pell(n)
- 客客威客短信接口修改(kppw) 配置
- 聊聊不确定性和确定性------化不确定性为确定性
- 【linux】centos7 升级gcc版本
- arch linux安装ssh,通过ssh远程安装arch linux
- 自学C++——自定义数据类型