数据挖掘第三章笔记——数据归约
数据归约是用来得到数据集的归约表示的,可以用较小的数据集来保持原始数据的完整性。在归约以后的数据集上挖掘会更有效,仍然产生相同的分析结果。
1.数据归约策略概述
包括维归约,数量规约以及数据压缩。
维归约主要考虑减少随机变量或者属性的个数。维归约 的方法包括小波变换,主成成分分析。属性子集选择也是维归约的方法,不相关弱相关或者冗余的属性会被检测或删除。
2.小波变换
这里暂时没太看懂需要单独一篇写一些理解
3.主成成分分析:
搜索 K个最能代表数据的N维正交向量。使得原来的属性集的一个子集减少属性集的大小不同,PCA通过创建一个替换的,较小的变量集组合属性的基本要素。
4.属性子集选择是通过删除不相关或者冗余的属性来减少数据量。属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能接近使用所有属性得到的原分布 。
属性子集选择基本启发方法包括:
5.回归和对数线性模型,参数化数据归约。
6.直方图:
7.聚类:
8.抽样
9.数据立方体聚集
数据立方体提供对预计算的汇总数据进行快速访问,适合联机数据分析和数据挖掘。
数据挖掘第三章笔记——数据归约相关推荐
- 数据挖掘——第三章:数据预处理
文章目录 1. 数据存在的问题 1.1 原始数据存在的问题 1.2 数据质量要求 1.3 预处理主要任务 2. 数据清洗 2.1 空缺值处理 2.2 噪声处理 3. 数据集成 3.1 集成过程中涉及的 ...
- 软考中级-网络工程师第三章笔记(广域通信网)
软考中级-网络工程师第三章笔记(广域通信网) 文章目录 软考中级-网络工程师第三章笔记(广域通信网) 前言 一.广域网概念和分类 二.公共交换电话网PSTN 三.公共数据网X.25 四.帧中继网FR ...
- C++PrimerPlus 第三章 处理数据
C++PrimerPlus 第三章 处理数据 3.1 简单变量 3.1.1 变量名 3.1.2 整型 3.1.3 整型short.int.long和long long 3.1.3.1 运算符sizeo ...
- python爬虫实战之旅( 第三章:数据解析(xpath法))
上接:第三章:数据解析(bs4法) 下接:第四章:验证码识别 1.xpath解析简介 最常用且最便捷高效的一种解析方式.通用性很好 xpath解析原理 实例化一个etree的对象,且需要将被解析的页面 ...
- 第三章:数据解析---聚焦爬虫
文章目录 第三章:数据解析---聚焦爬虫 注:本页示例所用的test.html文档 一.编码流程 二.数据解析分类 三.数据解析原理概述 四.bs4要点 1.bs4数据解析原理: 2.相关属性: 五. ...
- python爬虫实战之旅( 第三章:数据解析(bs4法))
上接:第三章:数据解析(正则法) 下接:第三章:数据解析(xpath法) 1.数据解析步骤 标签定位 提取标签,标签属性中存储的数据值 2.bs4数据解析的原理 实例化一个BeautifulSoup对 ...
- 视觉SLAM十四讲-第三章笔记
视觉SLAM14讲-第三章笔记 3.1 旋转矩阵 欧式变换 欧式变换:改变位资,不改变形状.大小. 旋转矩阵:R(3x3).是两个坐标系基的内积. 正交阵 行列式为1 逆表示相反的旋转 平移向量:t( ...
- DAMA-第三章(数据治理)
一.前言 本文是<DAMA数据管理知识体系指南>第三章的读书笔记,主要讲述如何进行数据治理,是全书的最为关键章节之一(按照CDMP考试认证的内容占比高达11%).由于本章内容较多,且内容相 ...
- Unix网络编程卷一第三章笔记
前言 这篇文章主要是Unix网络编程卷一第三章的个人笔记 1.POSIX 规范的三个字段 sin_family sin_addr sin_port 2.IPV4 套接字结构 五个套接字结构 IPV4( ...
最新文章
- 为什么用 抽象类,接口
- 全面解析RS232、RS485、RS422、RJ45接口的区别和各自的应用
- Centos root权限的变化
- 麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击
- pip安装python模块遇到一直出现retrying的问题
- 传说中的神器: shared_ptr/weak_ptr/scoped_ptr
- 实验4-1-4 求整数的位数及各位数字之和 (15 分)
- Hyperledger Fabric教程(7)--启动fabric区块链网络 如何查看节点日志
- html+css+js实现注册页面
- 蓝屏,BAD_SYSTEM_CONFIG_INFO,0x00000074故障
- html2canvas区域截屏,vue实现网页区域截屏(结合html2canvas,pdf.js)
- 今天终于把爬虫的Ajax请求搞懂了
- 手机rar压缩包密码忘了怎么办,rar压缩包不能复制打印、rar压缩包忘记密码怎么办?
- ContentType所有类型对比
- matlab多元回归分析怎么计算,第11讲_matlab多元回归分析
- android相关学习网站
- 八、量子纠缠状态的纯化协议及其应用
- matlab中za是什么意思,大学统计学 计算Za/2的时候 什么情况下直接取样本n 什么情况是要计算df=n-1的...
- 编译原理学习笔记(二十六)~习题:构造基于LR(0)、LR(1)项目的识别活前缀的DFA
- ERP中的“蝴蝶效应”:重视过程的控制
热门文章
- 呼吸机ASV通气模式控制效果的思考
- PTC FlexPLM rfa 客制化参考手册 By Elegant.Prosper
- ORBSLAM2在Ubuntu20.04ROS noetic下配置与测试
- iMeta | 浙大吴顶峰和同济刘蕾等对微生物富集分析中Reporter Score的误用研究
- idea 的BookMarks 书签功能
- iOS阿里云对象存储 OSS文件的上传/下载的实现
- python实现关联算法_关联规则算法Apriori学习及Python实现
- Appium自动化测试框架的原理、安装以及使用
- 物体检测实战:使用OpenCV内置方法实现行人检测
- 搜狐新闻文本分类:机器学习大乱斗