赖 锋

一、数据挖掘的理解

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的知识的非平凡过程。这个定义包括几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。数据挖掘,简单地可理解为通过对环境数据的操作,从数据中发现有用的知识。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。就具体应用而言,数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。
    从商业角度上看,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。

二、数据挖掘的主要方法

数据挖掘技术主要来源于四个领域: 统计分析、机器学习、神经网络和数据库。所以,数据挖掘的主要方法可以粗分为:统计方法、机器学习方法、神经网络方法和数据库方法。
    统计方法主要包括:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗集、支持向量机等。模糊集方法即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。粗集方法建立在粗集理论上。粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。

机器学习方法主要包括:归纳学习方法(决策树、规则归纳等)、基于范例的推理CBR、遗传算法、贝叶斯信念网络等。决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由Quinlan提出的著名的基于信息熵的ID3算法。它的主要问题是:ID3是非递增学习算法;ID3决策树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性差。针对上述问题,出现了许多较好的改进算法,如 Schlimmer和Fisher设计了ID4递增式学习算法;钟鸣,陈文伟等提出了IBLE算法等。遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。
    神经网络方法主要包括:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、BP反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以Hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以ART模型、Koholon模型为代表的,用于聚类的自组织映射方法。神经网络方法的缺点是"黑箱"性,人们难以理解网络的学习和决策过程。
    数据库方法主要是基于可视化的多维数据分析或OLAP方法,另外还有面向属性的归纳方法。

三、数据挖掘的任务

数据挖掘的任务主要有分类分析、聚类分析、关联分析、序列分析及时间序列。另外,还有孤立点分析、依赖关系分析、概念描述、偏差检测等。

1、分类分析(Classification Analysis)
  分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是有制导的学习,它利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测,常应用于风险管理、广告投放等商业环境。

2、聚类分析(Clustering Analysis)
  聚类又被称为分隔(segmentatio),聚类分析是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。聚类分析是无制导的学习,聚类分析与分类分析不同,它不依赖于没有事先确定的类,也没有已具有类标识的训练集。好的聚类分析算法应该使得所得到的聚簇内的相似性很高,而不同的聚簇间的相似性很低。
  3、关联分析 (Association Analysis)
  关联规则挖掘是由Rakesh Apwal等人首先提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。 最典型的应用是市场中购物篮分析。
  4、序列分析及时间序列(Sequence Analysis and Time Sequence)
  序列分析及时间序列是指通过序列信息或时间序列搜索出重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处的序列或时间的不同。

四、数据挖掘项目的开发周期

教材中的数据挖掘四阶段的论述不够具体,实际应用中指导性不强,我参考了Data Mining with SQL Server 2005,提高了对数据挖掘项目开发周期的认识。数据挖掘项目的开发周期分为8个步骤。

第1步 数据收集

将要挖掘的数据资源收集到数据库或数据仓库中。若已有数据仓库的主题数据不够丰富,还需从其他相关数据源加入新数据。数据收集完后,还要进行数据合理采样,以减少训练数据集的容量。多数情况下,从50,000客户记录中发现的模式有可能与从1,000,000客户记录中发现的模式是一样的。
  第2步 数据清洗和转换

数据清洗的目的是消除数据的噪音和其他无关信息。数据转换的目的是根据确定的数据类型和数据值将不同数据源的同类数据进行统一格式。数据清洗和转换常用的相关技术有:数据类型转换、连续值属性转换、分组、集合、去处孤立点等。

第3步 模型建立

模型建立是数据挖掘的核心阶段。首先,要和相关领域的专家组成团队,明确数据挖掘项目的目的和具体的数据挖掘任务。根据数据挖掘任务,选择相关算法。用不同算法建立不同数据模型,再用专业的模型评估工具比较模型的准确度。即使是同一种算法,参数选取的不同,所建模型的准确度也不一样。

第4步 模型评估

用模型评估工具对模型进行评估,认识发现模式的实际意义。若模型中的模式没有用,必须要重新进行数据清洗和转换、建立模型。数据挖掘是一个循环的过程,要通过反复的循环发现合理的模型。

第5步 报告

报告是数据挖掘成果的主要交付手段。有两种类型的报告:发现模式报告和预测报告。

第6步 预测

在很多数据挖掘项目中,发现模式还不够,还要通过模式进行预测。比如,银行业可以利用已建立的风险评估模型去预测每个新的贷款申请的潜在风险。

第7步 应用集成

将数据挖掘集成到实际应用中,特别是在应用中加入实时预测组件是数据挖掘项目的发展趋势。比如,CRM中有了数据挖掘功能,就可以对客户进行分类。ERP中有了数据挖掘功能,就能够预测产量。

第8步 模型管理

每一个数据挖掘模型都有一定的生命周期,维护好模型也是一项重要工作。不同应用中的模型的稳定期是不一样的,要根据实际情况对模型进行管理。另外,模型管理中还要注意安全问题,避免敏感数据的泄露。

五、数据挖掘算法的使用

当前提出的各种数据挖掘算法不下近百种,但没有任何一种数据挖掘的算法是万能的。算法的具体使用时应注意:

l   不同的算法应用于具体数据的含义和能力不同;

l   一个问题可能有多种算法可以求解但挖掘质量可能有差异;

l   有些算法可以用于多种数据类型,有些算法则对某些数据类型不适用;

l   有些算法的参数选择依赖于经验;

l   有些算法对数据有特殊的要求,需要做某些转换、过滤之类的操作;

l   通过历史数据所建立的模型,其分析和挖掘出的结果,与当前实际客体的行为不一定完全相同,因而在应用挖掘出的知识进行决策时存在非系统性风险。

六、数据挖掘相关公司及产品

kdnuggets.com网站上有详细的数据挖掘领域主要公司及其产品的介绍。其中,主要的公司和产品有:

l   SAS:SAS公司就市场份额而言是最大的数据挖掘产品产商。SAS在统计领域具有十多年的经验。其数据挖掘产品SAS Enterprise Miner于1997就开始推出,目前还在不断发展之中。

l   SPSS:SPSS的数据挖掘产品有AnswerTree 和Clementine。AnswerTree 能创建图形化决策树(主要的四种算法是:CHAID、Exhaustive CHAID、分类和回归树(C&RT)以及Quest),很容易分析各群体的响应率、发现影响响应率的属性,找到和确定有价值的客户群体。图形化的决策树非常直观,不仅能够描述各个群体的特征,并能其预测响应率。Clementine不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,它还支持数据挖掘的行业标准--CRISP-DM。

l   Angoss: Angoss数据挖掘的核心产品包括:挖掘工作站 KnowledgeSTUDIO 和挖掘引擎服务器 KnowledgeSERVER。KnowledgeSTUDIO 包含了全面而先进的数据挖掘算法,使商业分析师和高级用户在习惯的工作流程环境中都能进行广泛的分析。KnowledgeSTUDIO支持8种决策树,3种神经网络,2种时间序列,2种聚类,logistic回归和线性回归,协方差分析算法。KnowledgeSTUDIO由一系列可重复使用的组件组成。KnowledgeSTUDIO软件开发工具包(SDK)包含开发数据挖掘应用软件所要求的文件和库。

l   IBM:IBM德国公司开发了个数据挖掘产品叫Intelligent Miner。Intelligent Miner能输出符合业界标准的PMML文档,该PMML能被DB2装载用于预测分析。

l   Oracle:2000年发布的Oracle9i就包含有基于关联的数据挖掘算法。Oracle 10g包括了更多的数据挖掘工具和算法。Oracle也参与了Java Data Mining API的开发。

l   Microsoft:Microsoft是第一个在关系型数据库中包含有数据挖掘功能的数据库产商。2000年9月发布的SQL Server 2000包括了两个主要专利数据挖掘算法:Microsoft决策树算法和Microsoft聚类算法。另外,还应用了OLE DB for Data Mining。OLE DB for Data Mining是一个数据挖掘的业界API标准。SQL Server 2005新增 了5个算法:神经网络、贝叶斯、时序算法、关联和序列聚集。

参考文献

[1] 邵峰晶, 于忠清. 数据挖掘—原理与算法. 中国水利水电出版社, 2003

[2] ZhaoHUI Tang and Jamie MacLennan. Data Mining with SQL Server 2005. Wiley Publishing, 2005

[3] 罗晓沛, 侯炳辉. 系统分析员教程. 清华大学出版社, 2003

[3] www.kdnuggets.com

[4] 互联网上相关文献资料

转载于:https://www.cnblogs.com/lxinxuan/archive/2006/09/19/508015.html

对于数据挖掘的几点认识[转]相关推荐

  1. 如何学习数据挖掘和数据科学的7个步骤

    前言 概括 1 学习语言 2 工具:数据挖掘,数据科学和可视化软件 3 教科书 4 教育:网络研讨会,课程,证书和学位 5 数据 6 比赛 7 互动:会议,团体和社交网络 more 前言 最近一直一再 ...

  2. 数据挖掘的一些经典算法

    数据挖掘能做以下七种不同事情 (分析方法): 数据挖掘能做以下七种不同事情 · 分类 (Classification) · 估计(Estimation) · 预测(Prediction) · 相关性分 ...

  3. 关联规则挖掘算法_#数据挖掘初体验 使用weka做关联规则

    这学期选了数据挖掘课,前两节课刚好都没有去上课.照着教程练习一下课程内容... prepare 下载软件weka,根据系统选择版本,个人使用版本"a disk image for OS X ...

  4. python解释器环境中、用于表示上一次_大工20秋《数据挖掘》在线作业3 【标准答案】...

    可做奥鹏全部院校作业论文!答案请添加qq:599792222 或 微信:1095258436 大工20秋<数据挖掘>在线作业3 1.[单选题] 以下哪一种数据类型元素之间是无序的,相同元素 ...

  5. 数据挖掘公司D square nv 完成500万欧元B轮融资

    D square nv日前完成 500 万欧元 B 轮融资,融资方为 Gemma Frisius Fonds, Jürgen Ingels, Limburgse Reconversie Maatsch ...

  6. 案例:Oracle dul数据挖掘 磁盘损坏dul提取数据文件中表的数据及l

    通过使用Oracle DUL工具提取损坏磁盘里的数据库文件中的表及lob字段中内容 在有次8i的库恢复中,因为硬盘损坏导致几个表出现很多诡异性坏块,尝试使用dul对其进行挖掘数据,当时使用dul 9 ...

  7. 2018-3-12论文(非结构网络中有价值信息数据挖掘)笔记二-----作者:关联规则的非结构网络有价值信息数据挖掘(看不懂,看不懂)

    中国知网:<计算机仿真>----------山西农业大学信息科学与工程学院                    林媛 非结构化网络中有价值信息数据挖掘原理 确定信息数据挖掘的历史样本(? ...

  8. 2018-3-12论文(非结构化网络中有价值信息数据挖掘研究)笔记一总体思路以及三种目前进行价值信息挖掘的研究思想

    文章主要的内容: 提出了基于关联规则的非结构化网路中有价值信息数据挖掘的方法 总体的思想: (1)利用特征提取的方法进行初步的分类与识别,提取出不同文本类型的特征, (2)利用关联规则方法计算各个类型 ...

  9. 非结构化信息-》半结构化-》结构化-》关联数据体系-》数据挖掘-》故事化呈现-》决策导向

    非结构化数据介绍来源: 非结构化信息_百度百科 https://baike.baidu.com/item/%E9%9D%9E%E7%BB%93%E6%9E%84%E5%8C%96%E4%BF%A1%E ...

  10. 数据挖掘深入理解和学习路径

    上一篇文章中分享了数据分析的学习全景路径 其中最关键的部分就是数据挖掘,那什么是数据挖掘呢? 数据挖掘就是通过分析采集而来的数据源,从庞大的数据中发现规律,找到宝藏. 一,数据挖掘的基本流程 数据挖掘 ...

最新文章

  1. 汇编语言中寻址方式[bx + idata]
  2. ArcGIS 9.3 安装之 Server的安装
  3. idea里maven设置本地仓库报错原因
  4. DAC7612的使用
  5. 关于微信公众平台表情代码的记录
  6. R语言数据挖掘2.1.1.1 频繁项集
  7. VB2010 的隐式续行(Implicit Line Continuation)
  8. python文件写入乱码_python写文件打开后是乱码
  9. Wi-Fi 联盟撤销华为资格;华为已熟练掌握 ARM 架构修改;苹果 2020 年或推 5G 手机 | 极客头条...
  10. yum -y install php-mysql 版本冲突
  11. mac_excel_条件格式
  12. 戴尔Dell EMC S5048-ON交换机光模块解决方案
  13. 2021-12-21 理解JS中的shim / polyfill / 垫片概念
  14. 发那科机器人接线电源_实用FANUC 0i各模块接线及功能图
  15. 【第2期免费送书】 10本机器学习与Python相关书籍等你来领!经典之作,绝对领你心动......
  16. 创建一个动态空间存储未知大小的二维数组
  17. 三维实景应用制作工具有哪些?
  18. Linux运维:推荐八款Linux远程连接工具
  19. linux aria2 参数,aria2常用命令
  20. 我的世界手机版虚拟人生服务器,我的世界虚拟人生mod攻略 虚拟人生mod怎么玩...

热门文章

  1. weixin小程序和公众号抓包方法分享
  2. 一行命令查看Linux系统重启时间和相关记录
  3. NodeJS 5分钟 连接MySQL 增删改查
  4. 读《做人的最高境界是厚道》有感
  5. PostGIS查询指定范围的数据
  6. Python---day7作业
  7. Unity-面向接口编程(IOP)
  8. vue的三种路由守卫
  9. JSX语法学习(三)
  10. Android Qcom USB Driver学习(四)