数据挖掘:概念与技术 第一章
文章目录
- 第一章:引论
- 1.1 为什么进行数据挖掘?
- 1.2 什么是数据挖掘?
- 1.3 可以挖掘什么==类型的数据==
- 1.3.1 数据库和数据仓库的区别
- 1.3.2 事务数据
- 1.4 可以挖掘什么==类型的模式==
- 1.4.1 类/概念描述:特征化与区分
- 1.4.2 挖掘频繁模式、关联和相关性
- 1.4.3 用于预测分析的分类与回归
- 1.4.4 聚类分析
- 1.4.5 离群点分析
- 1.5 使用什么技术
- 1.6 面向什么类型的应用
- 1.6.1 商务智能
- 1.6.2 Web搜索引擎
- 1.7 数据挖掘的主要问题
- 1.7.1 挖掘方法
- 1.7.2 用户界面
- 1.7.3 有效性和可伸缩性
- 1.7.4 数据库类型的多样性
- 1.7.5 数据挖掘与社会
第一章:引论
1.1 为什么进行数据挖掘?
我们生活在大量数据日积月累的年代,分析这些数据是一种重要需求。
一种流行的说法是“我们生活在信息时代”。然而,实际上我们现在生活在数据时代,世界范围的商业活动,比如:销售事物、股票交易记录、产品描述、促销、公司利润和业绩以及顾客反馈,这种可用数据的爆炸式增长和大量数据的涌入使得我们的时代真正进入了数据时代。
蒸汽时代,电气时代,信息时代各自的原理
1.2 什么是数据挖掘?
作为一个多学科领域,数据挖掘可以用多种方法定义。即使术语“数据挖掘”本身也不能完全表达其主要含义。更准确的定义应该是“数据中的知识发现(KDD)”。
因此,我们采用的数据挖掘的定义是:数据挖掘是从大量数据中挖掘有趣模式和知识的过程。
作为知识发现的过程,它通常包括:
(1)数据清理(消除噪声和删除不一致的数据)
(2)数据集成(多种数据源可以集合在一起)
(3)数据选择(从数据库中提取与分析任务相关的数据)
(4)数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)
(5)模式发现(基本步骤,使用智能方法提取数据模式)
(6)模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)
(7)知识表示(使用可视化和知识表示技术,向用户提供挖挖掘的知识)
1.3 可以挖掘什么类型的数据
只要数据对于目标应用是有意义的,数据挖掘可以在任何类型的数据上进行,如数据库数据、数据仓库数据、事务数据和高级数据类型等。
1.3.1 数据库和数据仓库的区别
(第四、五章是数据仓库、OLAP(联机分析处理))
从概念上,
数据库系统,也称数据库管理系统(DBMS),由一组内部相关的数据(称作数据库)以及一组管理和存取数据的软件程序组成。
关系数据库:表的汇集,每个表都被赋予一个唯一的名字。每个表都包含一组属性,并且存放着大量元祖。
而数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常主流在单个站点上。
(是不是看完概念更加蒙圈了???我在知乎和csdn上找到了能让我清晰理解的回答,请看如下:)
数据库 与 数据仓库的本质区别是什么?
数据库 (Database) (Oracle, Mysql, PostgreSQL)主要用于事务处理,
数据仓库 (Datawarehouse) (Amazon Redshift, Hive)主要用于数据查询与分析。
数据库与数据仓库到底有什么区别?
主要区别在于数据结构,数据库中的建模一般遵循三范式,
通常,数据仓库用称做数据立方体(data cube)的多维数据结构建模。
因为数据仓库内部存储的数据是多维模型的。因此它特别适合OLAP(联机分析处理)
- OLAP(联机分析处理):联机分析处理(OLAP)是一种软件技术 ,主要作用是帮助分析人员分析数据!它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。
- 建模:建立模型。
- 维度建模:维度建模主要基于以下两个需求同时满足:
1)以商业用户可理解的方式发布数据
2)提供高效的查询性能
并不是一种新技术,简单性至关重要,能保护用户方便地理解数据,以及确保软件能够快速、有效地发现及发布结果。
1.3.2 事务数据
事务数据:一般来说,事务数据库的每个记录代表一个事务,通常,一个事务包含一个唯一的事务标识号(trans_ID),以及一组事务的项的列表(如,交易中购买的商品)。
1.4 可以挖掘什么类型的模式
数据挖掘功能,包括特征化与区分,频繁模式、关联和相关性挖掘,分类与回归,聚类分析,离群点分析。数据挖掘功能用于指定数据挖掘任务发现的模式,一般而言,这些任务可以分为两个:描述性和预测性。
1.4.1 类/概念描述:特征化与区分
数据可以与类或者概念相关联,例如在商店中,销售的商品类包括计算机和打印机。使用汇总的、简洁的、精确的表示方式描述每个类是有用的。这种类或概念的描述称为类/概念的描述。这种描述可以通过下述方法得到:(1)、数据特征化:一般地汇总所研究类(目标类)的数据;(2)、数据区分:将目标类与一个或者多个可比较类(对比类)进行比较。(3)、数据特征化与区分。
数据特征化(data characterization)是目标类数据的一般特性或特征的汇总。通常,通过查询来收集对应于用户指定类的数据。
数据区分(data discrimination)是将目标类数据对象的一般特性与一个或者多个对比类对象的一般特性进行比较。
1.4.2 挖掘频繁模式、关联和相关性
频繁模式(frequent pattern)是在数据中频繁出现的模式。存在多种类型的频繁模式,包括频繁项集、频繁子序列和频繁子结构。
频繁项集:频繁地在事务数据集中一起出现的商品的集合,如小卖部中被顾客频繁一起购买的牛奶和面包。
频繁出现的子序列:如顾客倾向于先购买便携机,在购买数码机,然后购买内存卡这样的模式就是一个序列模式。
频繁子结构:可能涉及不同的结构形式(例如,图、树或格)。
挖掘频繁模式导致发现数据中有趣的关联和相关性。
关联分析:
- buys(X, “computer”)—》buys(X, “software”)[support = 1% , confidence= 50%],
其中X是变量代表客户。50%的置信度或确信性意味,如果一位顾客购买计算机,则购买软件的可能性50%。1%的支持度意味,所分析的所有事物的1%显示计算机和软件一起被购买。这个关联规则涉及单个重复的属性或者谓词(即buys)。包含单个谓词的关联规则被称为单维关联规则(single-dimensional association rule)。
去掉谓词符号,上面的规则可以简化为"computer→software[1%, 50%]"。 - 数据挖掘还可以发现如下形式的规则:
age(X, “20…29”)∧ income(X, “40K…49K”)→buys(X, “Mac”)[support=2%, confidence=60%]。
该规则指出,这涉及多个属性或谓词(即age,income和buys)的关联。采用多维数据库使用的术语,每个属性称做一个维,上面的规则可以称做多维关联规则(multidimensional association rule)。
通常,一个关联规则被认为是无趣的而被丢弃,如果它不能同时满足最小支持度阈值和最小置信度阈值。
1.4.3 用于预测分析的分类与回归
分类是这样一个过程,它找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象的类标号。导出模型是基于对训练数据集(即,类标号已知的数据对象)的分析。该模型用来预测类标号未知的对象的类标号。
(第八、九章会更详细的讨论分类!)
- 问:如何提供导出的模型?
答:分类规则、决策树、数学公式或神经网络。
回归分析:根据先前的?,先前的数据,做出预测,做出分析。
1.4.4 聚类分析
聚类分析数据对象,而不考虑类标号。可以使用聚类产生数据组群的类标号。对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。对象的簇(cluster)这样形成,使得相比之下在同一个簇中对象具有很高的相似性,而与其他簇对象很不相似。所形成的每个簇都可以看成一个对象类。
(聚类分析是第十、十一章的内容!)
1.4.5 离群点分析
数据集中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象是离群点(outlier)。
在一些应用中(例如,欺诈检测),罕见的事件可能比正常出现的事件更令人感兴趣。离群点分析称作离群点分析或异常挖掘。
(离群点分析在第十二章讨论)
1.5 使用什么技术
(学之前掌握什么)
数据挖掘是一个多学科的交叉领域,数据挖掘吸纳了诸如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和许多应用领域的大量技术。
1.6 面向什么类型的应用
(学之后可以做什么:主要问题还是学到什么程度!)
商务智能和搜索引擎
1.6.1 商务智能
“商务智能有多重要?”没有数据挖掘,许多工商企业都不能进行有效的市场分析,比较类似产品的顾客反馈,发现其竞争对手的优势和缺点,留住具有高价值的顾客,做出聪明的商务决策。
1.6.2 Web搜索引擎
搜索引擎全方位地使用各种数据挖掘技术,包括爬行、索引和搜索。
1.7 数据挖掘的主要问题
简要概述数据挖掘研究的主要问题,把它们划分为五组:挖掘方法、用户交互、有效性与可伸缩性、数据类型的多样性、数据挖掘与社会
1.7.1 挖掘方法
(学好这门学科需要掌握那些能力?)
挖掘新的知识类型的能力、多学科融会贯通的能力、犀利的洞察力、处理不完全数据的能力
1.7.2 用户界面
如何与数据挖掘系统交互,如何可视化和理解数据挖掘的结果
1.7.3 有效性和可伸缩性
如何把代码写的工整漂亮
1.7.4 数据库类型的多样性
面对形形色色的数据,我们能否见招拆招
1.7.5 数据挖掘与社会
保护个人隐私
参考文章:
数据挖掘概念与技术 第一章 引论, 作者;GeekWill
数据挖掘:概念与技术(第三版)之第一章的学习记录, 作者:張清扬
数据挖掘:概念与技术 第一章相关推荐
- 【数据挖掘概念与技术】学习笔记5-数据立方体技术
基本方体是数据立方体中泛化程度最低的方体.泛化程序最高的方体是顶点方体,通常用all表示.基本方体的单元是基本单元,非基本方体的单元是聚集单元. 聚集单元在一个或多个维上聚集,其中每个聚集维用单元记号 ...
- 【读书笔记-数据挖掘概念与技术】数据立方体技术
基本概念: 基本单元:基本方体的单元 聚集单元:非基本方体的单元 冰山立方体:部分物化的立方体 最小支持度(最小支持度阀值):部分物化的最小阀值(说白了就是限定了一个范围) ∵冰山立方体仍有大量不感兴 ...
- 数据挖掘概念与技术课后笔记
数据挖掘概念与技术一 数据爆炸:自动数据收集工具和成熟的数据库技术使大量的数据被收集,储存在数据库.数据仓库或其他信息库中以待分析. 数据挖掘:从大量的数据中挖掘令人感兴趣的.有用的.隐含的.先去未知 ...
- (Raytracing)光线追踪技术 - 第一章 – 入门
(Raytracing)光线追踪技术 - 第一章 – 入门 RAYTRACING TOPICS & TECHNIQUES - PART 1 – INTRODUCTION 原作者:Jacco B ...
- 读书笔记《数据挖掘概念与技术》第2章 数据预处理 2.4 数据集成和变换
<数据挖掘:概念与技术(原书第2版)> 2.4 数据集成和变换 数据挖掘经常需要数据集成-合并来自多个数据存储的数据.数据还可能需要转换成适于挖掘的形式.本节介绍数据集成和数据变换. 2. ...
- 数据挖掘 概念与技术(原书第3版)
<数据挖掘:概念与技术(原书第3版)>完整全面地讲述数据挖掘的概念.方法.技术和全新研究进展.本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理.频繁模式挖掘. ...
- 数据库系统概念总结:第一章 引言
周末无事水文章,期末备考的总结资料 第一章 引言 数据库管理系统(DataBase-Management System,DBMS)由一个相互关联的数据的集合和一组用以访问这些数据的程序组成.这个数据集 ...
- 计算机三级数据库技术——第一章 数据库应用系统开发方法学习笔记
第一章 数据库应用系统开发方法 概述 数据库应用系统 术语 英文缩写 含义 数据库系统 DBS 数据的组织,存储,访问等数据管理功能 数据库应用系统 DBAS 数据管理之外,通过数据库应用程序的数据处 ...
- python数据挖掘入门与实践-第一章-用最简单OneR算法对Iris植物分类
前言: 这本书其实有配套代码的来着,但是有点坑的是,里面的代码对应的版本是有点旧的,用的时候会警告或者已经报错.甚至有些代码书里提了但是却没有写进去,要自己去摸索.我是每一章都跟着代码示例,把每一个步 ...
最新文章
- java面试时候算法题多吗_java程序员面试中最容易被问到的18个算法题(附答案!)...
- 解决访问http://localhost:8080/需要用户和密码的问题
- TabHost选项卡的实现(一):使用TabActivity实现
- rxjs的pipe和map配合使用的单步调试
- 真正的高手,都有增长思维!(深度好文)
- 如何绘制逻辑图— 4. 要素的属性:黑盒与白盒
- 牛逼,Java中表达式引擎工具就用它!建议收藏,一定用的到!!
- python热度评价指标_编程语言流行指数四月榜单发布:Python 持续强势,Java 热度减退...
- [Unity]限制一个值的大小(Clamp以及Mathf)
- mathtype2022数学公式编辑器快捷键及操作技巧分享教程
- 零基础学Arcgis(十二)地图标注与注记
- 如何下载矢量建筑轮廓
- Git 64位安装包下载
- 算法:计算股票的最大收益(动态规划经典案例)
- 基于Basys3设计的FPGA多功能电子琴
- 用文字描述给黑白照上色,这个免费网站火了!网友:比其他同类都好用
- GMC解封秘籍:解决 Google 账户被封窘境
- [歌词生成] 基于LSTM语言模型和seq2seq序列模型:数据爬取、模型思想、网络搭建、歌词生成
- cesium--entity
- Eventide发布SplitEQ,工作方式与传统的均衡器根本不同