三十七、数据泛化(面向属性的归纳)
1. 数据泛化:面向属性的归纳
从概念上讲,数据立方体可以看做一种多维数据泛化。数据泛化通过把相对低层的值(例如,属性年龄的数值)用较高层概念(例如,青年、中年和老年)替换来汇总数据。
- 数据特征化的面向属性的归纳
- 面向属性归纳的有效实现
- 类比较的面向属性归纳
2 数据特征的面向属性的归纳
2.1 面向属性的归纳的基本步骤
- 数据聚焦,获得初始数据关系
- 进行面向属性的归纳
基本操作是数据泛化,对有大量不同的属性,进行一下操作:
- 属性删除
- 属性泛化
- 属性泛化控制
2.2 数据聚焦
目的是获得跟任务相关的数据集,包括属性或维,在DMQL中它们由in relevance to子句表示。
获取Big-University数据库中研究生的数据
use Big_University_DBselect name,gender,major,birth_place,birth_datefrom studentTo Science in “graduate”where status in “graduate”
用户可能引进太多的属性
2.3 数据泛化
- 属性删除的使用规则:对初始工作关系中具有大量不同值的属性,符合一下情况,应使用属性删除。
- 在此属性上没有泛化操作符(比如该属性没有定义相关的感念分层)
- 该属性的较高层概念用其他属性表示。如:属性是street,它的高层次概念用属性<city, province_or_state, country>
2.4 属性概化控制
- 属性概化的使用规则:如果初始工作关系中的某个属性由大量不同值,且该属性上存在概化操作符,则使用该泛化操作对该属性进行数据泛化操作。
- 什么是“具有大量的不同值”?要将属性概化到多高的抽象层?
- 属性泛化控制的两种常用方法:
- 属性泛化临界值控制:对所有属性设置一个泛化临界值或对每个属性分别设置一个临界值。
3 面向属性归纳的有效实现
3.1 基本步骤
- 第一步进行的是关系查询,把任务相关的数据收集到工作关系表W中。
- 第二步收集初始关系上的统计量。这最多需要扫描一次该关系。
- 第三部导出主观系P。通过扫描工作关系的每个元组并把广义元祖插入到P中完成
4 类比较的面向属性归纳
4.1 类比较的面向属性归纳的过程
在许多应用中,用户可能对单个类的概念或特征不感兴趣,而是希望挖掘一种描述,它将一个类与其他课比较的类相区分
- 数据收集:通过查询处理收集数据库中相关数据,并把它们划分成一个目标类和对比类。
- 维相关分析:如果有多个维,则应当在这些类上进行维相关分析。
- 同步泛化:泛化在目标类上进行,泛化到用户或领域专家指定的维阈值控制的层,产生主目标类关系。
- 导出类比较的表示:结果类比较描述可以用表、图或规则的形式可视化。
4.2 挖掘类比较
假设我们想比较Big_University的研究生和本科生的一般性质,给定了属性name,gender,major,
birth_place,birth_date,residence,phone#和gpa。
首先将该查询转换成两个关系查询,收集两个任务相关的集合:一个是初始目标类工作关系,另一个是初始对比类工作关系。
合:一个是初始目标类工作关系,另一个是初始对比类工作关系。
三十七、数据泛化(面向属性的归纳)相关推荐
- 数仓知识10_数据泛化
数据泛化(面向属性的归纳:个性–>一般化) 1.定义 数据泛化:把较低层次的概念层(例如:年龄的数值范围)用较高层次的概念(例如:青年.中年和 老年)替换来汇总数据.或者通过减少维度在设计较少维 ...
- 5.数据立方体计算与数据泛化
1.两种不同类别的数据挖掘方法 描述性挖掘: 数据泛化 预测性挖掘:分类.回归分析 2.数据立方体的物化 3.数据立方体.闭立方体.立方体外壳和和计算策略搭档大裆..喜欢西幻 4.什么是概念描述 概念 ...
- 数据立方体计算与数据泛化
总述:数据在经过预处理和装入数据仓库之后,下一步就是应用具体的算法来处理数据,找出其中有业务意义的部分.这一部分详细的介绍了数据挖掘相关算法的核心思想,常见问题算法的指导方向. 如何根据数据立方体的情 ...
- 【SQL开发实战技巧】系列(三十七):数仓报表场景☞从表内始终只有近两年的数据,要求用两列分别显示其中一年的数据聊行转列隐含信息的重要性
系列文章目录 [SQL开发实战技巧]系列(一):关于SQL不得不说的那些事 [SQL开发实战技巧]系列(二):简单单表查询 [SQL开发实战技巧]系列(三):SQL排序的那些事 [SQL开发实战技巧] ...
- 实践数据湖iceberg 第三十七课 kakfa写入iceberg的 icberg表的 enfource ,not enfource测试
系列文章目录 实践数据湖iceberg 第一课 入门 实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式 实践数据湖iceberg 第三课 在sqlclient中,以sql ...
- 【数据挖掘笔记三】数据预处理
3.数据预处理 数据预处理技术: 数据清理用来清除数据中的噪声,纠正不一致: 数据集成将数据由多个数据源合并成一个一致的数据存储,如数据仓库: 数据归约通过如聚集.删除冗余特征或聚类来降低数据的规模: ...
- [Python从零到壹] 三十七.图像处理基础篇之图像融合处理和ROI区域绘制
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
- 第三十七章 Caché 命令大全 ZWRITE 命令
文章目录 第三十七章 Caché 命令大全 ZWRITE命令 重点 大纲 参数 描述 `ZWRITE`不带参数 `ZWRITE`带参数 Variables Non-Display Characters ...
- 【Visual C++】游戏开发笔记三十七 浅墨DirectX提高班之五 顶点缓存的红颜知己:索引缓存的故事
本系列文章由zhmxy555(毛星云)编写,转载请注明出处. 文章链接: http://blog.csdn.net/zhmxy555/article/details/8304741 作者:毛星云(浅墨 ...
最新文章
- python和java对比并发_Python并发编程之从性能角度来初探并发编程(一)
- springboot整合shiro地址栏JSESSIONID问题
- raid1 热备盘 linux,Centos 6.5 RAID1加热备盘
- 微软拥抱开源,Win10为啥要引入真Linux4.X内核?
- java 集合教程_Java Collections
- android锁屏时钟,桌面锁屏时钟
- 计算机地址输入法教案,计算机教案(输入法
- Redis雪崩和Redis穿透
- 在matlab中输出怎么表示什么意思,matlab中基于帧输出是什么意思
- 起风了用计算机打,求《起风了》计算器谱。
- 糗事百科成人版段子爬虫实战
- 常用web服务器:状态监控status页面
- cdn.jsdelivr.net无法访问的解决方法
- 智行者王肖:自动驾驶本质在于对待数据的态度、获取及应用方式 | 自动驾驶这十年... 1
- PHP 数组定义与基本使用
- MarsNFT :个人如何发行数字藏品?
- IDC机房工作的简单流程
- Tips系列:为啥西门子HMI的I/O域显示“#”?
- CIO访谈实录:2016里约奥运会CIO伊丽·雷森迪
- 精益六西格玛绿带应用培训(5天)
热门文章
- 面试题及答案_NET
- 在Linux上安装Memcached服务(自己测试过了)
- Swoole的think-swoole的安装
- Yii::$app的作用
- linux下安装oracle集群,【Oracle 集群】Linux下Oracle RAC集群搭建之Oracle DataBase安装(八)...
- xml突然变成空白_“侏罗纪中期”出现了型增转变填补食肉性恐龙体型发展当中的空白...
- tp框架命名空间使用(namespace,use,as,\)
- android 按比例缩放,Android postScale不按比例缩放
- 组态王c语言编程实例,组态王命令语言程序.doc
- java和ssm是什么关系,JAVA --- SSH和SSM的区别