数据挖掘➡谈谈为什么学？

为什么学数据挖掘？

1.1 数据挖掘把大型数据集转换成知识
1.2 数据挖掘是信息技术的进化
1.3 数据挖掘可以用于任何类型的数据，只要对需求有意义。
- 1.3.1 数据库数据
- 1.3.2 数据仓库
- 1.3.3 事务数据
- 1.3.4 其他类型的数据
2.1 数据挖掘——知识怎么发现？
- 2.1.1 发现知识要从各方面入手——挖掘类型的模式
- 2.1.2 类/概念描述:特征化与区分
- 2.1.3 挖掘频繁模式、关联和相关性
- 2.1.4 用于预测分析的分类与回归
- 2.1.5 聚类分析
- 2.1.6 离群点分析
2.2 模式有趣
2.3 使用什么技术

数据挖掘 (DM[data mining]) ——本质是从数据中发现知识。

我们生活在信息爆炸，大量数据日积月累的时代，分析这些数据是一种重要需求。

数据的爆炸式增长、广泛可用和巨大数量使得我们的时代成为真正的数据时代。急需功能强大和通用的工具，以便从这些海量数据中发现有价值的信息，把这些数据转化成有组织的知识。这种需求导致了数据挖掘的诞生。这个领域是年青的、动态变化的、生机勃勃的。数据挖掘已经并且将继续在我们从数据时代大步跨人信息时代的历程中做出重大贡献。

1.1 数据挖掘把大型数据集转换成知识

例如像百度这样的搜索引擎每天接受数亿次查询。每个查询都被看做一个事务, 用户通过事务描述他们的信息需求。随着时间的推移,搜索引擎可以从这些大量的搜索查询中学到什么样的新颖的、有用的知识?
有趣的是，从众多用户查询中发现的某些模式能够揭示无价的知识，这些知识无法通过仅读取个体数据项得到。
这是在整体的角度分析个体，方法论是: 用大的尺度去分析数据。

1.2 数据挖掘是信息技术的进化

从文件处理——数据库管理系统——高级数据库系统——数据仓库——高级数据分析——未来（例：量子数据库）

这是随时代变化，从认识——实践——再认识，不断螺旋上升的过程。

**数据挖掘的任务：**把丰富的数据转变为可用的信息。不然随者数据的堆积那就变成了——“数据坟墓”，这不是我们想要的，所以我们要开发出数据挖掘工具，把数据坟墓变成知识金块。

采用广义的数据挖掘功能的观点: 数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流人系统的数据。

1.3 数据挖掘可以用于任何类型的数据，只要对需求有意义。

1.3.1 数据库数据

数据库系统，也称数据库管理系统(DBMS)，由一组内部相关的数据(称做数据库) 和一组管理和存取数据的软件程序组成。

软件程序提供如下机制: 定义数据库结构和数据存储，说明和管理并发、共享或分布式数据访问，面对系统瘫痪或未授权的访问，确保存储的信息的一致性和安全性。

关系数据库是表的汇集，每个表都被赋予一个唯一的名字。每个表都包含一组属性(列或字段)，并且通常存放大量元组(记录或行)。关系表中的每个元组代表一个对象，被唯一的关键字标识，并被一组属性值描述。通常为关系数据库构建语义数据模型，如实体—联系(ER)数据模型。ER数据模型将数据库表示成一组实体和它们之间的联系。

1.3.2 数据仓库

数据仓库是一个从多个数据源收集的信息存储库，存放在一致的模式下，并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。

1.3.3 事务数据

一般地说，事务数据库的每个记录代表一个事务，如顾客的一次购物、一个航班订票或一个用户的网页点击。通常, 一个事务包含一个唯一的事务标识号 (trans_ID)，以及一个组成事务的项(如，交易中购买的商品)的列表。事务数据库可能有一些与之相关联的附加表，包含关于事务的其他信息，如商品描述、关于销售人员或部门等的信息。

1.3.4 其他类型的数据

除关系数据库数据、数据仓库数据和事务数据外，还有许多其他类型的数据，它们具有各种各样的形式和结构，具有很不相同的语义。
这样的数据类型在许多应用中都可以看到,如时间相关或序列数据(例如历史记录、股票交易数据、时间序列和生物学序列数据)、数据流(例如视频监控和传感器数据，它们连续播送)、空间数据( 如地图)、工程设计数据(如建筑数据、系统部件或集成电路)、超文本和多媒体数据(包括文本、图像、视频和音频数据)、图和网状数据(如社会和信息网络)和万维网( 由Internet 提供的巨型、广泛分布的信息存储库)。
要精确弄懂这些，需要我们不断努力，加强“挖金矿”的能力！

2.1 数据挖掘——知识怎么发现？

数据库中的知识发现(KDD): 在数据中发现有用信息和模式的过程.
数据挖掘: 用算法抽取从KDD过程中衍生出的信息和模式。

2.1.1 发现知识要从各方面入手——挖掘类型的模式

描述性( descriptive)数据挖掘和预测性(Ipredictive)数据挖掘。

描述性挖掘任务刻画目标数据中数据的一般性质。
预测性挖掘任务在当前数据上进行归纳，以便做出预测。

2.1.2 类/概念描述:特征化与区分

数据可以与类或概念相关联。用汇总的、简洁的、精确的表达方式描述每个类和概念是有用的。这种类或概念的描述称为类/概念描述。

数据特征化( data characterization)：是目标类数据的一般特性或特征的汇总。通常，通过查询来收集对应于用户指定类的数据。例如，查询一个月内去武汉三天的人的特征。

数据特征化的输出可以用多种形式提供，例如饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述也可以用广义关系或规则(称做特征规则)形式提供。

数据区分( data discrimination)：将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。目标类和对比类可以由用户指定，而对应的数据对象可以通过数据库查询检索。例如，用户可能希望将上一年销售增加10%的软件产品A与同一时期销售至少下降30%的软件产品B进行比较。发现A产品价格实惠，B产品价格昂贵。

2.1.3 挖掘频繁模式、关联和相关性

频繁模式（frequent pattern）是在数据中频繁出现的模式。包括频繁项集、频繁子序列( 又称序列模式)和频繁子结构。
频繁项集一般是指频繁地在事务数据集中-起出现的商品的集合，如小卖部中被许多顾客频繁地–起购买的牛奶和面包。
频繁出现的子序列，如顾客倾向于先购买便携机，再购买数码相机，然后再购买内存卡这样的模式就是一个(频繁)序列模式。
子结构可能涉及不同的结构形式(例如，图、树或格)，可以与项集或子序列结合在一起。
如果一个子结构频繁地出现、则称它为(频繁)结构模式。挖掘频繁模式导致发现数据中有趣的关联和相关性。
频繁项集挖掘是频繁模式挖掘的基础。
其中特别强调频繁项集挖掘的有效算法。序列模式挖掘和结构化模式挖掘被看做高级课题。

2.1.4 用于预测分析的分类与回归

找出描述和区分数据类或概念的模型是分类的过程。

决策树的树结构，神经网络的处理单元。还有很多分类模型：如 朴素贝叶斯分类、支持向量机和k最近邻分类。
回归用来预测缺失的或难以获得的数值、数据值。回归分析是经常使用数值预测的统计学方法。
相关分析是试图识别分类与回归过程显著相关的属性。

2.1.5 聚类分析

聚类分析更好的为人识别，理解。

2.1.6 离群点分析

数据集中可能包含一些数据对象，它们与数据的一般行为或模型不一致。这些数据对象是离群点(outlier)。大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。然而，在一些应用中(例如，欺诈检测)，罕见的事件可能比正常出现的事件更令人感兴趣。离群点数据分析称做离群点分析或异常挖掘。

2.2 模式有趣

一个模式是有趣的(interesting)，如果它: (1)易于被人理解; (2) 在某种确信度上，对于新的或检验数据是有效的; (3) 是潜在有用的; (4)是新颖的。
如果一个模式证实了用户寻求证实的某种假设,则它也是有趣的。有趣的模式代表知识。

2.3 使用什么技术

作为一个应用驱动的领域，数据挖掘吸纳了诸如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和许多应用领域的大量技术。
数据挖掘研究与开发的边缘学科特性极大地促进了数据挖掘的成功和广泛应用。本节我们给出一些对数据挖掘方法的发展具有重要影响的学科例子。

小结：

需要是发明之母。随着每个应用中的数据的急剧增长，数据挖掘迎合了当今社会对有效的、可伸缩的和灵活的数据分析的迫切需要。数据挖掘可以看做信息技术的自然进化，是一些相关学科和应用领域的交汇点。

数据挖掘是从海量数据中发现有趣模式的过程。作为知识发现过程，它通常包括数据清理、数据集成、数据选择、数据变换、模式发现、模式评估和知识表示。
一个模式是有趣的，如果它在某种确信度上对于检验数据是有效的、新颖的、潜在有用的(例如，可以据之行动，或者验证了用户关注的某种预感)，并且易于被人理解。有趣的模式代表知识。
模式兴趣度度量，无论是客观的还是主观的，都可以用来指导发现过程。我们提供了一个数据挖掘的多维视图。主要的维是数据、知识、技术和应用。只要数据对于目标应用是有意义的，数据挖掘可以在任何类型的数据上进行，如数据库数据、数据仓库数据、事务数据和高级数据类型等。高级数据类型包括时间相关的或序列数据、数据流、空间和时空数据、文本和多媒体数据、图和网络数据、Web 数据。
数据仓库是一种用于长期存储数据的仓库，这些数据来自多个数据源，是经过组织的，以便支持管理决策。这些数据在一种统一的模式下存放，并且通常是汇总的。数据仓库提供一些数据分析能力，称做联机分析处理。
多维数据挖掘(又称探索式多维数据挖掘) 把数据挖掘的核心技术与基于OLAP的多维分析结合在一起。它在不同的抽象层的多维(属性)组合中搜索有趣的模式，从而探索多维数据空间。
数据挖掘功能用来指定数据挖掘任务发现的模式或知识类型，包括特征化和区分，频繁模式、关联和相关性挖掘，分类和回归，聚类分析和离群点检测。随着新的数据类型、新的应用和新的分析需求的不断出现，毫无疑问，将来我们会看到越来越新颖的数据挖掘任务。
作为一个应用驱动的领域，数据挖掘融汇来自其他一些领域的技术。这些领域包括统计学、机器学习数据库和数据仓库系统，以及信息检索。数据挖掘研究与开发的多学科特点大大促进了数据挖掘的成功和广泛应用。
数据挖掘有许多成功的应用，如商务智能、Web搜索、生物信息学、卫生保健信息学、金融、数字图书馆和数字政府。
数据挖掘研究存在许多挑战性问题。领域包括挖掘方法、用户交互、有效性与可伸缩性，以及处理多种多样的数据类型。数据挖掘研究对社会具有很大影响，并且未来这种影响将继续。

资料参考《数据挖掘概念与技术》第三版。