【数据挖掘笔记一】引论

1.引论

1.1为什么进行数据挖掘

数据挖掘，从数据中发现知识（KDD），从各种各样的应用数据中发现有趣数据模式。数据挖掘把大型数据集转换成知识。数据挖掘是信息技术自然进化的结果。数据库和数据管理功能不断发展，从数据收集和数据库创建、到数据管理（包括数据存储和检索、数据库事务处理）、再到高级数据分析（包括数据仓库和数据挖掘）。如下图。

现在还要加上大数据和人工智能，没有大量数据集的处理，不能成就今天的人工智能。大数据是基于数据仓库而起的。数据仓库是一种存储结构，一种多个异构数据源在单个站点以统一的模型组织的存储，以支持管理决策。大数据不是单个站点了，是一个集群了，这里面和并行、云、分布式计算的发展大有关系。数据仓库技术包括数据清理、数据集成和联机事务处理（OLAP）。OLAP是一种分析技术，具有汇总、合并和聚集以及从不同的角度观察信息的能力。OLAP虽然支持多维分析和决策，但对于深层次的分析，仍需其他分析工具，如提供数据分类、聚类、离群点/异常检测和刻画数据随时间变化等特征的数据挖掘工具。

丰富的数据加上对数据分析的强烈需求，推动着挖掘技术的发展。如若不然，就陷入“数据丰富，但信息贫乏”的境况，一般情况，大型数据库中的数据都成了档案-数据坟墓。急需为决策者提供从海量数据中提取有价值知识的工具。专家系统和知识库系统是一种尝试，不过需要人工将知识输入知识库。数据和信息之间存在鸿沟，要发展挖掘工具，将数据坟墓变成金块。

1.2什么是数据挖掘

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。一般由以下步骤的迭代序列构成：

1）数据清理：消除噪声或删除不一致数据；

2）数据集成：多种数据源可以组合在一起；

3）数据选择：从数据库中提取与分析任务相关的数据；

4）数据变换：通过汇总或聚集操作，把数据变换和统一成适合挖掘的形式，如数据归约；

5）数据挖掘：基本步骤，使用智能方法提取数据模式；

6）模式评估：根据某种兴趣度度量，识别代表知识的真正有趣的模式；

7）知识表示：使用可视化和知识表示技术，向用户提供挖掘的知识。

1.3可以挖掘什么类型的数据

数据挖掘是一种通用技术，以应用为目标导向，可用于挖掘任何类型的数据。对于挖掘的应用，数据的基本形式有：数据库数据、数据仓库数据和事务数据，也可用于如数据流、序列数据、图、网络数据、空间数据、多媒体数据、万维网等其他类型数据。

1）数据库系统

数据库系统，也称数据库管理系统（DBMS），由一组内部相关的数据（称做数据库）和一组管理和存取数据的软件程序组成。软件提供如下机制：定义数据库结构和数据存储，说明和管理并发、共享或分布式数据访问，面对系统瘫痪或未授权的访问，确保存储的信息的一致性和安全性。

关系数据库是表的汇集，每个表都被赋予一个唯一的名字。每个表都包含一组属性（列或字段），并且通常存放大量元组（记录或行）。关系表中的每个元组代表一个对象，被唯一的关键字标识，并被一组属性值描述。通常为关系数据库构建语义数据模型，如实体-联系（ER）数据模型。ER数据模型将数据库表示成一组实体和它们之间的关系。

关系数据库可以通过数据库查询访问。数据库查询使用如SQL这样的关系查询语言，或借助于图形用户界面书写。一个给定的查询被转换成一系列关系操作，如连接、选择和投影，并被优化，以便有效地处理。查询可以提取数据的一个指定的子集，关系查询语言也包含聚集函数，如sum、avg、count、max和min。当数据挖掘用于关系数据库时，可进一步搜索趋势或数据模式；如可以分析顾客数据，根据顾客收入、年龄和以前的信用信息预测新顾客的信用风险。数据挖掘系统也可以检测偏差。

关系数据库是数据挖掘最常见、最丰富的信息源，因此是数据挖掘研究的主要数据形式。

2）数据仓库

数据仓库是一个从多个数据源收集的信息存储库，存放在一致的模式下，并且通常驻留在单个站点上。数据库仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。为支持决策，数据仓库中的数据围绕主题组织，数据存储从历史的角度提供信息并汇总。三个词：主题、汇总、历史。

通常，数据仓库用称做数据立方体（data cube）的多维数据结构建模。其中，每个维对应于模式中的一个或一组属性，而每个单元存放某种聚焦度量值，如count或sum。数据立方体提供数据的多维视图，并允许预计算和快速访问汇总数据。通过提供多维数据视图和汇总数据的预计算，数据仓库非常适合联机分析处理（OLAP）。OLAP操作使用所研究的数据的领域的背景知识，允许在不同的抽象层提供数据。这些操作适合不同的用户角度。OLAP操作的例子包括下钻（drill-down）和上卷（roll-up），允许用户在不同的汇总级别观察数据。

尽管数据仓库工具对于支持数据分析是有帮助的，但是进行深入分析仍然需要更多的数据挖掘工具。多维数据挖掘（又称探索式多维数据挖掘）以OLAP风格在多维空间进行数据挖掘。也就是说，在数据挖掘中，允许在各种粒度进行多维组合探查，因此更有可能发现代表知识的有趣模式。

3）事务数据

事务数据库的每个记录代表一个事务，如顾客的一次购物、一个航班订票或一个用户的网页点击。通常，一个事务包含一个唯一的事务标识号（trans_ID），以及一个组成事务的项（如交易中购买的商品）的列表。事务数据库可能有一些与之相关联的附加表，包含关于事务的其他信息，如商品描述、关于销售人员或部门等的信息。

事务数据上的数据挖掘可以通过挖掘频繁项集进行“购物篮数据分析”。频繁项集是频繁地一起销售的商品的集合。

4）其他类型数据

除关系数据库数据、数据仓库数据和事务数据外，还有其他类型的数据，它们具有各种各样的形式和结构，具有很不相同的语义。如时间相关或序列数据（如历史记录、股票交易数据、时间序列和生物学序列数据）、数据流（如视频监控和传感器数据，它们连续播送）、空间数据（如地图）、工程设计数据（如建筑数据、系统部件或集成电路）、超文本和多媒体数据（包括文本、图像、视频和音频数据）、图和网状数据（如社会和信息网络）和万维网（由Internet提供的巨型、广泛分布的信息存储库）。这些应用带来新的挑战，如如何处理具有空间结构的数据（如序列、树、图和网络）和特殊语义（如次序、图像、音频和视频的内容、连接性），以及如何挖掘具有丰富结构和语义的模式。

在许多应用中，存在多种数据类型。如web挖掘中，网页上有文本数据和多媒体数据（如照片和视频）、图形数据、地图数据；如在生物信息学中，对某些生物学对象，染色体序列、生物学网络和染色体的3D空间结构可能同时存在。由于多个数据源的相互提升和加强，挖掘复杂对象的多个数据源常常导致硕果累累的发现。另一方面，由于数据清理和数据集成的困难性，以及这种数据的多个数据源之间的复杂相互作用，挖掘复杂对象也是一大挑战。

1.4可以挖掘什么类型的模式

数据挖掘的任务分类：描述性（descriptive）和预测性（predictive），描述性挖掘任务刻画目标数据中数据的一般性质；预测性挖掘任务在当前数据上进行归纳，以便做出预测。

1）特征化与区分

数据可以与类或概念相关联，对于类或概念的描述可通过如下方法得到：a、数据特征化，一般地汇总所研究类（目标类）的数据；b、数据区分，将目标类与一个或多个可比较类（对比类）进行比较；c、数据特征化和区分。

数据特征化（datacharacterization）是目标类数据的一般特性或特征的汇总。通常，通过查询来收集对应于用户指定类的数据。将数据汇总和特征化有一些有效的方法，如基于统计量和图的简单汇总、基于数据立方体的OLAP上卷操作。面向属性的归纳技术可以用来进行数据的泛化和特征化。数据特征化的输出有多种形式，如饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述也可以用广义关系或规则（称做特征规则）形式提供。

数据区分（datadiscrimination）是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。目标类和对比类可以由用户指定，而对应的数据对象可以通过数据库查询检索。数据区分的输出类似特征描述，不过区分描述包括比较度量，以区分目标类和对比类。用规则表示的区分描述称为区分规则（discriminant rule）。

2）挖掘频繁模式、关联和相关性

频繁模式（frequentpattern）是在数据中频繁出现的模式。存在多种类型的频繁模式，包括频繁项集、频繁子序列（或称序列模式）和频繁子结构。频繁项集一般是指频繁地在事务数据集中一起出现的商品的集合，如小卖部中顾客频繁地一起购买牛奶和面包。频繁出现的子序列，如先买便携机再买数码相机然后再买内存卡，这样的模式就是一个频繁序列模式。频繁子结构可能涉及不同的结构形式，如图、树或格，可以与项集或子序列结合在一起。如果一个子结构频繁地出现，则称为频繁结构模式。挖掘频繁模式导致发现数据中有趣的关联和相关性。

关联分析，对频繁模式的相关性关系定义，用支持度和置信度，包括单维关联和多维关联。一个关联规则被认为是无趣的而被丢弃，当且仅当不能同时满足支持最小支持度阈值和最小置信度阈值。也可进一步分析，发现相关联的属性-值对之间的有趣的统计相关性（correlation）。频繁项集挖掘是频繁模式挖掘的基础。

3）用于预测分析的分类和回归

分类（classification）找出描述和区分数据类或概念的模型（或函数），以便能够使用模型预测类标号未知的对象的类标号。导出模型是基于对训练数据集（即类标号已知的数据对象）的分析。该模型用来预测类标号未知的对象的类标号。模型有分类规则、决策树、数学公式或神经网络、朴素贝叶斯分类、支持向量机和k最近邻分类。决策树时一种类似于流程图的树结构，其中每个结点代表在一个属性值上的测试，每个分支代表测试的一个结果，而树叶代表类或类分布。当用于分类时，神经网络是一组类似于神经元的处理单元，单元之间加权连接。

分类预测类别（离散的、无序的）标号，而回归建立连续值函数模型。回归用来预测缺失的或难以获得的数值数据值，而不是离散的类标号。预测可以值数值预测或类标号预测。回归分析（regression analysis）是一种最常用的数值预测的统计学方法。回归也包含基于可用数据的分布趋势识别。

相关分析（relevanceanalysis）在分类和回归之前进行，识别与分类或回归过程显著相关的属性，将选择这些属性用于分类和回归过程，其他属性是不相关，不参与。

4）聚类分析

聚类（clustering）分析数据对象，而不考虑类标号。对不存在标记类的数据，可使用聚类产生数据组群的类标号。对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。对象的簇（cluster）使得相比之下在同一个簇中的对象具有很高的相似性，而与其他簇中的对象很不相似。所形成的每个簇都可以看做一个对象类，由它可以导出规则。聚类也便于分类法形式（taxonomy formation），即将观测组织成类分层结构，把类似的事件组织在一起。

5）离群点分析

数据集中可能包含一些数据对象，它们与数据的一般行为或模型不一致。这些数据对象是离群点（outlier）。大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。不过，在一些应用中（例如欺诈检测），罕见的事件可能比正常出现的事件更令人感兴趣。离群点数据分析称做离群点分析或异常挖掘。

可以假定一个数据分析或概率模型，使用统计检验来检测离群点；或者使用距离度量，将远离任何簇的对象视为离群点。不使用统计或距离度量，基于密度的方法也可以识别局部区域中的离群点。

6）所有模式都是有趣的吗

有趣的模式即代表知识。不过所挖掘的模式并不一定都是有趣的。一个模式是有趣的（interesting），满足：a、易于被人理解；b、在某种确信度上，对于新的或检验数据是有效的；c、是潜在有用的；d、是新颖的。如果一个模式证实了用户寻求证实的某种假设，则它也是有趣的。

模式兴趣度的客户度量，度量基于所发现模式的结构和关于它们的统计量。对于形如X->Y的关联规则，客观度量有规则的支持度（support）和规则的置信度（confidence）。支持度表示事务数据库中满足规则的事务所占的百分比，支持度取概率P(XUY)，XUY表示同时包含X和Y的事务，即项集X和Y的合并。置信度用于评估所发现的规则的确信程度，置信度取条件概率P(Y|X)，即包含X的事务也包含Y的概率。形式化定义支持度和置信度：

一般地，每个兴趣度度量都与一个阈值相关联，该阈值可以由用户控制。

其他兴趣度度量包括分类（IF-THEN）规则的准确率与覆盖率。一般而言，准确率是被一个规则正确分类的数据所占的百分比。覆盖率类似于支持度，指可以作用的数据所占的百分比。

客观度量有助于识别有趣的模式，不过还是要结合反映特定用户需要和兴趣的主观度量。主观兴趣度量基于用户对数据的信念。这种度量发现模式是有趣的，如果它们是出乎意料的（与用户的信念相矛盾），或者提供用户可以采取行动的至关重要的信息。在后一种情况下，这样的模型称为可行动的（actionable）。

根据用户提供的约束和兴趣度度量对搜索聚焦，对于一些挖掘任务（如关联）而言，可期望所挖掘出的模式相对有效。模式兴趣度度量是必要的，可以指导和约束发现过程，通过剪去模式空间中不满足预先设定的兴趣度约束的子集，提高搜索性能。

整个挖掘过程基本是：数据特征化和区分，实际就是特征抽取；接着就是相关性分析，就是特征选择；然后就是模型训练；最后就是模型评估，有趣模式度量。

1.5使用什么技术

作为一个应用驱动的领域，数据挖局吸纳了诸如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和许多应用领域的大量技术，如下图。

1）统计学

统计学研究数据的收集、分析、解释和表示。数据挖掘与统计学具有天然联系。

统计模型是一组数学函数，用随机变量及其概率分布刻画目标类对象的行为。如可使用统计模型对噪声和缺失的数据值建模，在大数据集挖掘模式时，数据挖掘过程可以使用该模型来帮助识别数据中的噪声和缺失值。

推理统计学（或预测统计学）用某种方式对数据建模，解释观测中的随机性和确定性，并用来提取关于所考察的过程或总体的结论。统计学方法也用来验证数据挖掘结果。如建立分类或预测模型之后，使用统计假设检验来验证模型。统计假设检验（或称做证实数据分析）使用实验数据进行统计判决，如果结果不大可能随机出现，则称它为统计显著的。如果分类或预测模型有效，则该模型的描述统计量将增强模型的可靠性。

统计学方法应用于大型数据集时，具有很高的计算复杂度，尤其是对分布在多个逻辑或物理站点的大型数据集时，需设计和调优算法，最大程度降低计算开销。对于联机应用而言，如web搜索引擎中的联机查询建议，数据挖掘要能够连续处理快速、实时的数据流。

2）机器学习

机器学习是考察计算机基于数据的学习能力，主要研究计算机程序基于数据自动地学习识别复杂的模式，并做出智能的决断。如计算机程序从一组实例学习，能够自动识别邮件上的手写体邮政编码。

a、监督学习(supervised learning)：分类任务，学习中的监督来自训练数据集中标记的实例。

b、无监督学习（unsupervised learning）：聚类任务，学习过程是无监督的，输入实例没有标记。

c、半监督学习（semi-supervised learning）：学习模型时，使用标记的和未标记的实例，标记的实例用来学习类模型，而未标记的实例用来进一步改进类边界。

d、主动学习（active learning）：让用户在学习过程中扮演主动角色，其实就是专家给标记。

3）数据库系统与数据仓库

数据库系统研究关注为单位和最终用户创建、维护和使用数据库，建立了数据建模、查询语言、查询处理和优化方法、数据存储以及索引和存取方法。数据库系统在处理大的、相对结构化的数据集上具有高度可伸缩性。数据挖掘利用可伸缩的数据库技术，可获得在大型数据集上的高效率和可伸缩性。

新的数据库系统使用数据仓库和数据挖掘机制，在数据库的数据上建立数据分析能力。数据仓库集成多种数据源和各个时间段的数据，在多维空间上合并数据形成部分物化的数据立方体。数据立方体有利于多维数据库的OLAP。

4）信息检索

信息检索（IR）是搜索文档或文档中信息的科学。传统的信息检索和数据库系统之间的区别是：信息检索假定所搜索的数据是无结构的；信息检索查询主要用关键词。

信息检索的方法采用概率模型。如文本文档可以看做词的包，即出现在文档中的词的多重集；文档的语言模型是生成文档中词的包的概率密度函数；两个文档之间的相似度可用对应的语言模型之间的相似性度量。一个文本文档集的主体可以用词汇表上的概率分布模型，称做主题模型。一个文本文档可以涉及多个主题，可以看做多主题混合模型。

1.6面向什么类型的应用

数据挖掘作为应用驱动的学科，在众多应用中获得巨大成功，典型就是商务智能和搜索引擎。

1）商务智能

商务智能BI技术提供商务运作的历史、现状和预测视图，包括报告、联机分析处理、商务业绩管理、竞争情报、标杆管理和预测分析。数据挖掘是商务智能的核心。商务智能的联机分析处理工具依赖于数据仓库和多维数据挖掘。分类和预测技术是商务智能预测分析的核心，在分析市场、供应和销售方面有很多应用。在客户关系管理方面，聚类可根据顾客的相似性把顾客分组，使用特征挖掘技术，可以更好地理解每组顾客的特征，并开发定制的顾客奖励计划。

2）搜索引擎

Web搜索引擎是一种专门的计算机服务器，在web上搜索信息。通常，用户查询的搜索结果用一张表返回给用户（也称做采样hit）。采样可以包含网页、图像和其他类型的文件。有些搜索引擎也搜索和返回公共数据库中的数据或开放的目录。搜索引擎不同于网络目录，因为网络目录是人工编辑管理的，而搜索引擎则按算法运行，或者算法和人工输入的混合。

Web搜索引擎本质上式大型数据挖掘应用。搜索引擎全方位地使用各种数据挖掘技术，包括爬行（如决定应该爬过那些页面和爬行频率）、索引（如选择被索引的页面和决定构建索引的范围）和搜索（如确定如何排列各个页面、加载何种广告、如果把搜索结果个性化或使之环境敏感）。

搜索引擎对数据挖掘提出了挑战。首先能处理大量并且不断增加的数据，需计算机云来协调挖掘海量数据；其次需要处理在线数据，满足即时查询，对快速增长的数据流要维护和增量更新模型；最后能处理次数不多的查询，这种情况一般不会保留历史推断查询的环境。

1.7数据挖掘的主要问题

数据挖掘是一个动态的、强势快速发展的领域。数据挖掘研究的主要问题：挖掘方法、用户交互、有效性与可伸缩性、数据类型的多样性、数据挖掘与社会。

1）挖掘方法

a、挖掘各种新的知识类型：数据挖掘广泛涵盖数据分析和知识发现的任务，从数据特征化与区分到关联与相关性分析、分类、回归、聚类、离群点分析、序列分析以及趋势和演变分析。

b、挖掘多维空间中的知识：在不同抽象层的多维（属性）组合中搜索有趣的模式，即探索式多维数据挖掘；把数据看做多维数据立方体，可显著地提高数据挖掘的能力和灵活性。

c、数据挖掘-跨学科的努力：通过集成来自多学科的新方法可以显著增强数据挖掘的能力。如挖掘自然语言文本数据，要把数据挖掘方法与信息检索和自然语言处理的方法融合；比如大型程序中的软件故障挖掘，要结合软件工程知识。

d、提升网络环境下的发现能力：所谓网络环境，就是开放的，数据是互连互补的；多个数据对象之间的语义链接可以用来促进数据挖掘。一个数据集中导出的知识可以用来提升相关或语义连接的对象集中的知识发现。

e、处理不确定性、噪声或不完全的数据：数据常常包含噪声、错误、异常、不确定性，或者是不完全的；错误和噪声可能干扰数据挖掘过程，导致错误的模式出现。数据清理、数据预处理、离群点检测与删除以及不确定推理都是需要与数据挖掘过程集成的技术。

f、模式评估和模式或约束指导的挖掘：数据挖掘过程所产生的所有模式并非都是有趣的，认定模型是否有趣因应用而异，因此需要一种技术来评估基于主观度量所发现的模式的兴趣度。这种评估给定用户类，基于用户的确信或期望，评估模式的价值；通过使用兴趣度度量或用户指定的约束指导发现过程，可以产生更有趣的模式，压缩搜索空间。

2）用户界面

用户界面研究包括：如何与数据挖掘系统交互，如何在挖掘中融入用户的背景知识，以及如何可视化和理解数据挖掘的结果。

a、交互挖掘：构建灵活的用户界面和探索式挖掘环境，以便用户与系统交互。

b、结合背景知识：把背景知识、约束、规则等信息结合到发现过程中，用于模式评估。

c、特定的数据挖掘和数据挖掘查询语言。

d、数据挖掘结果的表示和可视化。

3）有效性和可伸缩性

a、数据挖掘算法的有效性和可伸缩性：为有效地从多个数据库或动态数据流的海量数据中提取信息，数据挖掘算法必须是有效的和可伸缩的。数据挖掘算法的运行时间必须是可预计的、短的和可以被应用接收的。有效性、可伸缩性、性能、优化以及实时运行能力是驱动数据挖掘算法开发的关键标准。可伸缩性就是算法在数据规模增长时能够保持性能的相对稳定。

b、并行、分布式和增量数据算法：巨大容量的数据、广泛分布的数据以及算法的计算复杂性都需要开发并行和分布式数据密集型挖掘算法；该类算法首先把数据划分成若干片段，每个片段并行处理，搜索模式；并行处理可以交互，来自每部分的模式最终合并在一起。

云计算和集群计算使用分布和协同的计算机处理超大规模计算任务，是并行数据挖掘研究的活跃主体。数据挖掘过程的高开销和输入的增量也推动了增量数据挖掘，增量挖掘与新的数据结合，不从头开始挖掘，修正和加强先前业已发现的知识。并行挖掘和增量挖掘值得深入探究挖掘方法。

4）数据库类型的多样性

a、处理复杂的数据类型。

b、挖掘动态的、网络的、全球的数据库。

5）数据挖掘与社会

a、数据挖掘对社会的影响。

b、保护隐私的数据挖掘。

c、无形的数据挖掘：渗透到大众的日常行为中。

1.8小结

1）数据挖掘是从海量数据中发现有趣模式的过程。作为知识发现的过程，通常包括数据清理、数据集成、数据选择、数据变换、模式发现、模式评估和知识表示。

2）一个模式是有趣的，如果它在某种确信度上对于检验数据是有效的、新颖的、潜在有用的（如据之行动，或者验证了用户关注的某种预感），并且易于被人理解。有趣的模式代表知识。模式兴趣度度量，无论是客观的还是主观的，都可以用来指导发现过程。

3）数据挖掘的多维视图，主要的维是数据、知识、技术和应用。

4）只要对目标应用是有意义的，数据挖掘可以在任何类型的数据上进行，如数据库数据、数据仓库数据、事务数据和高级数类型等。高级数据类型包括时间相关的或序列数据、数据流、空间和时空数据、文本和多媒体数据、图和网络数据、web数据。

5）数据仓库是一种用于长期存储数据的仓库，数据来自多个源，以主题和统一模式组织的，提供联机分析处理能力，支持管理决策。

6）多维数据挖掘，把数据挖掘的核心技术与基于OLAP的多维分析结合在一起，在不同的抽象层的多维（属性）组合中搜索有趣的模式，从而探索多维数据空间。

7）数据挖掘功能用来指定数据挖掘任务发现的模式或知识类型，包括特征化和区分，频繁模式、关联和相关性挖掘，分类和回归，聚类分析和离群点检测。

8）数据挖掘研究存在很多挑战性问题，包括挖掘方法、用户交互、有效性和可伸缩性以及处理多样化的数据类型。