数据归约是用来得到数据集的归约表示的,可以用较小的数据集来保持原始数据的完整性。在归约以后的数据集上挖掘会更有效,仍然产生相同的分析结果。

1.数据归约策略概述

包括维归约,数量规约以及数据压缩。

维归约主要考虑减少随机变量或者属性的个数。维归约 的方法包括小波变换,主成成分分析。属性子集选择也是维归约的方法,不相关弱相关或者冗余的属性会被检测或删除。

2.小波变换

这里暂时没太看懂需要单独一篇写一些理解

3.主成成分分析:

搜索 K个最能代表数据的N维正交向量。使得原来的属性集的一个子集减少属性集的大小不同,PCA通过创建一个替换的,较小的变量集组合属性的基本要素。

4.属性子集选择是通过删除不相关或者冗余的属性来减少数据量。属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能接近使用所有属性得到的原分布 。

属性子集选择基本启发方法包括:

5.回归和对数线性模型,参数化数据归约。

6.直方图:

7.聚类:

8.抽样

9.数据立方体聚集

数据立方体提供对预计算的汇总数据进行快速访问,适合联机数据分析和数据挖掘。

数据挖掘第三章笔记——数据归约相关推荐

  1. 数据挖掘——第三章:数据预处理

    文章目录 1. 数据存在的问题 1.1 原始数据存在的问题 1.2 数据质量要求 1.3 预处理主要任务 2. 数据清洗 2.1 空缺值处理 2.2 噪声处理 3. 数据集成 3.1 集成过程中涉及的 ...

  2. 软考中级-网络工程师第三章笔记(广域通信网)

    软考中级-网络工程师第三章笔记(广域通信网) 文章目录 软考中级-网络工程师第三章笔记(广域通信网) 前言 一.广域网概念和分类 二.公共交换电话网PSTN 三.公共数据网X.25 四.帧中继网FR ...

  3. C++PrimerPlus 第三章 处理数据

    C++PrimerPlus 第三章 处理数据 3.1 简单变量 3.1.1 变量名 3.1.2 整型 3.1.3 整型short.int.long和long long 3.1.3.1 运算符sizeo ...

  4. python爬虫实战之旅( 第三章:数据解析(xpath法))

    上接:第三章:数据解析(bs4法) 下接:第四章:验证码识别 1.xpath解析简介 最常用且最便捷高效的一种解析方式.通用性很好 xpath解析原理 实例化一个etree的对象,且需要将被解析的页面 ...

  5. 第三章:数据解析---聚焦爬虫

    文章目录 第三章:数据解析---聚焦爬虫 注:本页示例所用的test.html文档 一.编码流程 二.数据解析分类 三.数据解析原理概述 四.bs4要点 1.bs4数据解析原理: 2.相关属性: 五. ...

  6. python爬虫实战之旅( 第三章:数据解析(bs4法))

    上接:第三章:数据解析(正则法) 下接:第三章:数据解析(xpath法) 1.数据解析步骤 标签定位 提取标签,标签属性中存储的数据值 2.bs4数据解析的原理 实例化一个BeautifulSoup对 ...

  7. 视觉SLAM十四讲-第三章笔记

    视觉SLAM14讲-第三章笔记 3.1 旋转矩阵 欧式变换 欧式变换:改变位资,不改变形状.大小. 旋转矩阵:R(3x3).是两个坐标系基的内积. 正交阵 行列式为1 逆表示相反的旋转 平移向量:t( ...

  8. DAMA-第三章(数据治理)

    一.前言 本文是<DAMA数据管理知识体系指南>第三章的读书笔记,主要讲述如何进行数据治理,是全书的最为关键章节之一(按照CDMP考试认证的内容占比高达11%).由于本章内容较多,且内容相 ...

  9. Unix网络编程卷一第三章笔记

    前言 这篇文章主要是Unix网络编程卷一第三章的个人笔记 1.POSIX 规范的三个字段 sin_family sin_addr sin_port 2.IPV4 套接字结构 五个套接字结构 IPV4( ...

最新文章

  1. 为什么用 抽象类,接口
  2. 全面解析RS232、RS485、RS422、RJ45接口的区别和各自的应用
  3. Centos root权限的变化
  4. 麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击
  5. pip安装python模块遇到一直出现retrying的问题
  6. 传说中的神器: shared_ptr/weak_ptr/scoped_ptr
  7. 实验4-1-4 求整数的位数及各位数字之和 (15 分)
  8. Hyperledger Fabric教程(7)--启动fabric区块链网络 如何查看节点日志
  9. html+css+js实现注册页面
  10. 蓝屏,BAD_SYSTEM_CONFIG_INFO,0x00000074故障
  11. html2canvas区域截屏,vue实现网页区域截屏(结合html2canvas,pdf.js)
  12. 今天终于把爬虫的Ajax请求搞懂了
  13. 手机rar压缩包密码忘了怎么办,rar压缩包不能复制打印、rar压缩包忘记密码怎么办?
  14. ContentType所有类型对比
  15. matlab多元回归分析怎么计算,第11讲_matlab多元回归分析
  16. android相关学习网站
  17. 八、量子纠缠状态的纯化协议及其应用
  18. matlab中za是什么意思,大学统计学 计算Za/2的时候 什么情况下直接取样本n 什么情况是要计算df=n-1的...
  19. 编译原理学习笔记(二十六)~习题:构造基于LR(0)、LR(1)项目的识别活前缀的DFA
  20. ERP中的“蝴蝶效应”:重视过程的控制

热门文章

  1. 呼吸机ASV通气模式控制效果的思考
  2. PTC FlexPLM rfa 客制化参考手册 By Elegant.Prosper
  3. ORBSLAM2在Ubuntu20.04ROS noetic下配置与测试
  4. iMeta | 浙大吴顶峰和同济刘蕾等对微生物富集分析中Reporter Score的误用研究
  5. idea 的BookMarks 书签功能
  6. iOS阿里云对象存储 OSS文件的上传/下载的实现
  7. python实现关联算法_关联规则算法Apriori学习及Python实现
  8. Appium自动化测试框架的原理、安装以及使用
  9. 物体检测实战:使用OpenCV内置方法实现行人检测
  10. 搜狐新闻文本分类:机器学习大乱斗