1. 数据泛化:面向属性的归纳

从概念上讲,数据立方体可以看做一种多维数据泛化。数据泛化通过把相对低层的值(例如,属性年龄的数值)用较高层概念(例如,青年、中年和老年)替换来汇总数据。

  • 数据特征化的面向属性的归纳
  • 面向属性归纳的有效实现
  • 类比较的面向属性归纳

2 数据特征的面向属性的归纳

2.1 面向属性的归纳的基本步骤

  1. 数据聚焦,获得初始数据关系
  2. 进行面向属性的归纳

基本操作是数据泛化,对有大量不同的属性,进行一下操作:

  • 属性删除
  • 属性泛化
  • 属性泛化控制

2.2 数据聚焦

  • 目的是获得跟任务相关的数据集,包括属性或维,在DMQL中它们由in relevance to子句表示。

  • 获取Big-University数据库中研究生的数据

      use Big_University_DBselect name,gender,major,birth_place,birth_datefrom studentTo Science in “graduate”where status in “graduate”
    
  • 用户可能引进太多的属性

2.3 数据泛化

  • 属性删除的使用规则:对初始工作关系中具有大量不同值的属性,符合一下情况,应使用属性删除。
  • 在此属性上没有泛化操作符(比如该属性没有定义相关的感念分层)
  • 该属性的较高层概念用其他属性表示。如:属性是street,它的高层次概念用属性<city, province_or_state, country>

2.4 属性概化控制

  • 属性概化的使用规则:如果初始工作关系中的某个属性由大量不同值,且该属性上存在概化操作符,则使用该泛化操作对该属性进行数据泛化操作。
  • 什么是“具有大量的不同值”?要将属性概化到多高的抽象层?
  • 属性泛化控制的两种常用方法:
  • 属性泛化临界值控制:对所有属性设置一个泛化临界值或对每个属性分别设置一个临界值。

3 面向属性归纳的有效实现

3.1 基本步骤

  • 第一步进行的是关系查询,把任务相关的数据收集到工作关系表W中。
  • 第二步收集初始关系上的统计量。这最多需要扫描一次该关系。
  • 第三部导出主观系P。通过扫描工作关系的每个元组并把广义元祖插入到P中完成

4 类比较的面向属性归纳

4.1 类比较的面向属性归纳的过程
在许多应用中,用户可能对单个类的概念或特征不感兴趣,而是希望挖掘一种描述,它将一个类与其他课比较的类相区分

  • 数据收集:通过查询处理收集数据库中相关数据,并把它们划分成一个目标类和对比类。
  • 维相关分析:如果有多个维,则应当在这些类上进行维相关分析。
  • 同步泛化:泛化在目标类上进行,泛化到用户或领域专家指定的维阈值控制的层,产生主目标类关系。
  • 导出类比较的表示:结果类比较描述可以用表、图或规则的形式可视化。

4.2 挖掘类比较

假设我们想比较Big_University的研究生和本科生的一般性质,给定了属性name,gender,major,
birth_place,birth_date,residence,phone#和gpa。

首先将该查询转换成两个关系查询,收集两个任务相关的集合:一个是初始目标类工作关系,另一个是初始对比类工作关系。


合:一个是初始目标类工作关系,另一个是初始对比类工作关系。

三十七、数据泛化(面向属性的归纳)相关推荐

  1. 数仓知识10_数据泛化

    数据泛化(面向属性的归纳:个性–>一般化) 1.定义 数据泛化:把较低层次的概念层(例如:年龄的数值范围)用较高层次的概念(例如:青年.中年和 老年)替换来汇总数据.或者通过减少维度在设计较少维 ...

  2. 5.数据立方体计算与数据泛化

    1.两种不同类别的数据挖掘方法 描述性挖掘: 数据泛化 预测性挖掘:分类.回归分析 2.数据立方体的物化 3.数据立方体.闭立方体.立方体外壳和和计算策略搭档大裆..喜欢西幻 4.什么是概念描述 概念 ...

  3. 数据立方体计算与数据泛化

    总述:数据在经过预处理和装入数据仓库之后,下一步就是应用具体的算法来处理数据,找出其中有业务意义的部分.这一部分详细的介绍了数据挖掘相关算法的核心思想,常见问题算法的指导方向. 如何根据数据立方体的情 ...

  4. 【SQL开发实战技巧】系列(三十七):数仓报表场景☞从表内始终只有近两年的数据,要求用两列分别显示其中一年的数据聊行转列隐含信息的重要性

    系列文章目录 [SQL开发实战技巧]系列(一):关于SQL不得不说的那些事 [SQL开发实战技巧]系列(二):简单单表查询 [SQL开发实战技巧]系列(三):SQL排序的那些事 [SQL开发实战技巧] ...

  5. 实践数据湖iceberg 第三十七课 kakfa写入iceberg的 icberg表的 enfource ,not enfource测试

    系列文章目录 实践数据湖iceberg 第一课 入门 实践数据湖iceberg 第二课 iceberg基于hadoop的底层数据格式 实践数据湖iceberg 第三课 在sqlclient中,以sql ...

  6. 【数据挖掘笔记三】数据预处理

    3.数据预处理 数据预处理技术: 数据清理用来清除数据中的噪声,纠正不一致: 数据集成将数据由多个数据源合并成一个一致的数据存储,如数据仓库: 数据归约通过如聚集.删除冗余特征或聚类来降低数据的规模: ...

  7. [Python从零到壹] 三十七.图像处理基础篇之图像融合处理和ROI区域绘制

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  8. 第三十七章 Caché 命令大全 ZWRITE 命令

    文章目录 第三十七章 Caché 命令大全 ZWRITE命令 重点 大纲 参数 描述 `ZWRITE`不带参数 `ZWRITE`带参数 Variables Non-Display Characters ...

  9. 【Visual C++】游戏开发笔记三十七 浅墨DirectX提高班之五 顶点缓存的红颜知己:索引缓存的故事

    本系列文章由zhmxy555(毛星云)编写,转载请注明出处. 文章链接: http://blog.csdn.net/zhmxy555/article/details/8304741 作者:毛星云(浅墨 ...

最新文章

  1. python和java对比并发_Python并发编程之从性能角度来初探并发编程(一)
  2. springboot整合shiro地址栏JSESSIONID问题
  3. raid1 热备盘 linux,Centos 6.5 RAID1加热备盘
  4. 微软拥抱开源,Win10为啥要引入真Linux4.X内核?
  5. java 集合教程_Java Collections
  6. android锁屏时钟,桌面锁屏时钟
  7. 计算机地址输入法教案,计算机教案(输入法
  8. Redis雪崩和Redis穿透
  9. 在matlab中输出怎么表示什么意思,matlab中基于帧输出是什么意思
  10. 起风了用计算机打,求《起风了》计算器谱。
  11. 糗事百科成人版段子爬虫实战
  12. 常用web服务器:状态监控status页面
  13. cdn.jsdelivr.net无法访问的解决方法
  14. 智行者王肖:自动驾驶本质在于对待数据的态度、获取及应用方式 | 自动驾驶这十年... 1
  15. PHP 数组定义与基本使用
  16. MarsNFT :个人如何发行数字藏品?
  17. IDC机房工作的简单流程
  18. Tips系列:为啥西门子HMI的I/O域显示“#”?
  19. CIO访谈实录:2016里约奥运会CIO伊丽·雷森迪
  20. 精益六西格玛绿带应用培训(5天)

热门文章

  1. 面试题及答案_NET
  2. 在Linux上安装Memcached服务(自己测试过了)
  3. Swoole的think-swoole的安装
  4. Yii::$app的作用
  5. linux下安装oracle集群,【Oracle 集群】Linux下Oracle RAC集群搭建之Oracle DataBase安装(八)...
  6. xml突然变成空白_“侏罗纪中期”出现了型增转变填补食肉性恐龙体型发展当中的空白...
  7. tp框架命名空间使用(namespace,use,as,\)
  8. android 按比例缩放,Android postScale不按比例缩放
  9. 组态王c语言编程实例,组态王命令语言程序.doc
  10. java和ssm是什么关系,JAVA --- SSH和SSM的区别