本文目的
最近在看《数据挖掘导论》,此书作为此领域的入门书籍,很有口碑。这几天抽业余时间,看了第二章,觉得该记点什么,否则对不起自己。人总在与遗忘作斗争,好记性不如烂笔头。
主要内容
本章节主要讨论了数据处理的4个主要方面:
  • 数据类型
  • 数据质量
  • 数据预处理
  • 相似度测量
数据类型(Type of Data)
定义数据的属性,记录,数据集。
属性的类型分为4种
  • 名称(Noimal):仅仅只是名称,用来区分不同记录,一一对应,如ID
  • 有序(Ordinal):可以理解为计算机语言中枚举类型,有序,有限
  • 区间(Interval):数字区域,主要用于加减运算,如时间,日期
  • 比例(Radio):计算比例,主要用于乘除运算。
数据集的类型

  • 记录:类似表格,矩阵
  • 图:节点和关联组成的数据,典型的例子是网页和网页中的连接。图论。
  • 时序:按时间排列,带有时间属性的数据集。
数据资粮(Data Quality)
主要介绍了如何度量数据的质量,精度,如何处理错误的数据,异常的数据,不一致的数据等,说的比较笼统,主要还是介绍概念和一些简单的实践方法,如去掉一些不符合要求的数据等等。
数据预处理(Data Preprocess)
这一章介绍了集中常见的数据处理方法,涉及到数理统计与线性代数相关的知识,有些公式和方法需要查阅相关书籍,才能明白,本书也只是提到了使用场景,没有讨论推导过程。主要预处理的技术有如下:
  • 聚合(Aggregation):将分散的数据聚合成一起,减少数据量,如统计商品的销售额,可以讲流水中每一笔的销售情况按照天,月的方式合并起来,这样可以大大介绍数据量。
  • 采样(Sampling):统计学得方法,采样的最大好处是可以大大减少数据集大小,但是关键点是如何以最小的样本数来获得最具代表的样本集。一般方法有随机采样,或根据权重采样。
  • 降维(Dimensionaity Reducetion):线性代数的方法--PCA(主成分分析)和SVD(奇异值分解)
  • 选取子属性集(Feature Subset Selection):选取问题最相关的属性,去掉无用属性,如ID
  • 创造属性:傅里叶分析
  • 离散化和二进制化:运用熵,离散化连续的值
  • 变量转换:函数,规范化,标准化
相似性测量
个人认为本节是本章中最实用的一章,因为后续的很多章节的分析都是基于数据间的相似度来进行的,比如聚类分析。
欧式距离:集合距离的n维向量空间的扩展
Minkowski Distance:距离的范式表示
Jaccrd 距离:用于计算稀疏的0-1向量之间的距离
余弦定理:用于计算稀疏的非0-1i向量的距离,如果向量的莫需要考虑,那么可以采用欧式距离。0元素对相似性不做贡献
相关系数(Pearson系数):计算两个向量的相关性,可以用非稀疏举证,0元素对相似性做出贡献
相似度可以放到一些单调递减的函数,用来度量相异性。
比如,上述方法用于统一余弦值和欧式距离。余弦值越大,越相似。但是欧式距离越大,越相异。所以可以任选一个,通过一个简单的单调递减函数来转换,使两者的值表述一致(要么越大越相似,要么越小越相似),这样就可以原封不动的运用的同一个算法中,比如作为hierarchical cluster中的距离公式。
一点思考
上面流水账式的记录了第二章的大概,现在对数据处理已经有了大概的认识。以前虽然灭有明确的这个步骤,但是在一些地方见过。比如weka中有一块专门的地方用于数据预处理。自己在工作中,实现的聚类时,数据初始化时,其实也是在数据与处理,所以实际上本章的内容并不陌生,只是跟全面更广的了解的相关知识。
同时,发现线性代数,数理统计在数据挖掘中的应用还是比较多的,后续要抽点时间捡起相关的知识。
吐槽:好不容易从老婆那里要过来的两个小时的上机时间,终于完成了这篇blog,看来是要买个pad了,一台机器是在hold不住。

数据挖掘学习07 - 《数据挖掘导论》第二章:数据相关推荐

  1. 软考网络管理员学习笔记2之第二章数据通信基础

    第二章.数据通信基础 1.奈奎斯特定理与香农理论 [考法分析] 奈奎斯特定理是理想情况下,求数据速率 香农理论是在受到噪声干扰后,求数据速率 [要点分析] 看题目中是否提及到噪声或信噪比等关键词 如果 ...

  2. 计算机科学导论第二章,计算机科学导论第二章.doc

    计算机科学导论第二章.doc (2页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 3.9 积分  第二次作业 2.1 数值数据1. 计算机只识别二进制编 ...

  3. 计算机导论重写算法,计算机导论第二章.ppt

    <计算机导论第二章.ppt>由会员分享,可在线阅读,更多相关<计算机导论第二章.ppt(66页珍藏版)>请在人人文库网上搜索. 1.1.第二章计算机系统的组成2.1四个功能部件 ...

  4. 统计机器学习导论第二章答案

    R语言学习笔记 统计机器学习导论第二章部分习题 文章目录 R语言学习笔记 一.8题 8. This exercise relates to the College data set, which ca ...

  5. 计算机导论免费阅读 小说,计算机导论第二章.ppt

    计算机导论第二章.ppt (66页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 19.90 积分 第二章 计算机系统的组成 2.1 四大功能部件 2.2 ...

  6. ASP.NET3.5 企业级项目开发 -- 第二章 数据访问层(DAL)的开发

    为什么80%的码农都做不了架构师?>>>    ASP.NET3.5 企业级项目开发 -- 第二章 数据访问层(DAL)的开发          前言:本篇主要讲述数据访问层的开发, ...

  7. 第二章 数据的表示和运算 2.1.2 BCD码 [计算机组成原理笔记]

    第二章 数据的表示和运算 2.1.2 BCD码 本笔记参考书目: 计算机组成原理(第六版.立体化教材)白中英.戴志涛 2021王道计算机组成原理视频公开课 本节重点: 8421/2421/余3码 转载 ...

  8. 计算机组成原理第二章数据,计算机组成原理第二章数据在计算机中的表示

    计算机组成原理第二章数据在计算机中的表示 (91页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 14.90 积分 第二章 数据在计算机中的表示 n 概述 ...

  9. 信息学奥赛一本通(C++版)第二部分 基础算法 第二章 数据排序

    第二章 数据排序 T1310 : 车厢重组 时间限制: 1000 ms 内存限制: 65536 KB [题目描述]   在一个旧式的火车站旁边有一座桥,其桥面可以绕河中心的桥墩水平旋转.一个车站的职工 ...

  10. 第二章 数据的表示和运算 2.1.6 循环冗余校验码/CRC码 [计算机组成原理笔记]

    第二章 数据的表示和运算 2.1.6 循环冗余校验码/CRC码 本笔记参考书目: 计算机组成原理(第六版.立体化教材)白中英.戴志涛 2021王道计算机组成原理视频公开课 本节重点: 循环冗余校验码/ ...

最新文章

  1. 吉利蔚来造手机,小米造车
  2. js两个小技巧【看到了就记录一下】
  3. 飞鸽传书做一个意志坚定的程序员
  4. Oracle]高效的SQL语句之分析函数
  5. url传参(中文乱码)值得注意的地方
  6. Ubuntu 19.10 停止支持 32 位的 x86 架构
  7. ArcGIS水文分析实战教程(7)细说流域提取
  8. 15.卷1(套接字联网API)---Unix域协议
  9. 怎样成为优秀软件模型设计者
  10. bzoj1854 [Scoi2010]游戏【构图 并查集】
  11. 组策略下更改本地管理员名称和密码
  12. 本人出版《Java Web 项目开发案例实战—Spring Boot+Mybatis+Hibernate+Spring Cloud》
  13. HBase数据库结构、存储理解(举例解释、容易理解、深入浅出)
  14. VS-( 图片的上传 )
  15. C++保留小数点后两位
  16. Arduino + AD9851 DDS信号模块 频率控制字和相位控制字写入
  17. Oxford Nanopore MinION Sequencing and Genome Assembly
  18. python爬取知乎热榜了解时事
  19. c语言 递归计算P函数
  20. 手机便签里的文字不小心点了个粘贴就消失了应该怎样复原呢?

热门文章

  1. asp.net 安装element ui_vue入门003~vue项目引入element并创建一个登录页面
  2. python如何用pip升级_手把手教你怎么用Python pip怎么升级pip?,专家详解
  3. python程序写完怎么保存_python程序如何进行保存
  4. MySQL8.0.12 EXPLAIN EXTENDED 报错问题
  5. C#解析JSON字符串总结(转载)
  6. ZZNU-oj-2141:2333--【O(N)求一个数字串能整除3的连续子串的个数,前缀和数组+对3取余组合数找规律】...
  7. js正则及常用方法函数总结
  8. java 27 - 7 反射之 通过反射越过泛型检查
  9. CheckBoxList控件绑定数据和设置选定项
  10. 数据库系列学习(三)-数据的增、删、改