简介

  人类正被数据淹没,却饥渴于知识。随着数据库技术的应用越来越普及,人们正逐步陷入“数据丰富,知识贫乏”的尴尬境地。知识信息的“爆炸”给人类带来莫大益处,但也带来不少弊端,造成知识信息的“污染”。面临浩瀚无际而被污染的数据,人们呼唤从数据汪洋中来一个去粗取精、去伪存真的技术。在这种形势下,数据挖掘应运而生。数据挖掘就是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的,目标明确、 针对性强、精炼准确的信息和知识的过程。 数据与知识贫乏导致了知识发现和数据挖掘的出现,当人们进入 21 世纪以后,可 以预计知识发现与数据挖掘的研究又将形成一个新的高潮。

  数据挖掘是一门多学科交叉的领域。一方面,数据挖掘以计算技术的发展为首要条件,没有数据的有效组织,从一堆数据垃圾中发现有用的知识是痴人说梦;没有大量计算算法的支持,即使是简单的查询也会耗时巨大,更不用说发现有用的模式。另一方面,即使数据得到有效的组织,计算算法足够先进,要想发现数据中隐藏的有用信息,还必须综合利用统计学、模式识别、人工智能、机器学习、神经网络等学科的专业知识。比如数据挖掘使用的分析方法,有相当大比重是靠统计学中的多元分析来支撑的,由统计理论衍生出来的。当然,所有这些学科的发展必然会从不同的角度关 注数据分析技术的进展,数据挖掘也为这些学科的发展提供了新的机遇和挑战。

  数据挖掘是用于数据处理的一种新的思维方法和技术手段,它是在现实生活中各种数据量不断增长,以及以数据库技术为核心的信息技术逐渐成熟的背景下产生的。数据挖掘可以帮助用户发现隐藏在数据库中的规律和模式,它融合了人工智能、统计、机器学习、模式识别和数据库等多种学科的理论、方法与技术,通过对数据的归纳、分析和推理,从中发掘出潜在的模式,帮助决策者调整策略,进行正确的决策。

  但是,我们也必须看到,要研究数据挖掘,必须强调所用方法的概念和属性,而不是机械的应用不同的数据挖掘工具。对方法、模型以及它们怎样运转及运转原理的 深入理解是有效和成功运用数据挖掘技术的先决条件。任何在数据挖掘领域的研究者和实践者都要意识到这些问题,以便成功地应用一种特定的方法,理解一种方法的 局限性,或者开发新技术。

概念

  我们来从技术和商业的角度给出数据挖掘的定义[14]。 从技术角度,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道但又是潜在的有用的信息或知识的过程,提取的知识一般表示为概念、规则、规律、模式等形式。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识可接受、可理解、可运用;这些知识是相对的,是有特定前提和约束条件的,在特定的 领域中具有实际的应用价值。 数据挖掘是一门交叉性学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持,它涉及到机器学习、模式识别、归纳推理、统计学、数据库技术、数据可视化、高性能计算、神经网络、信息检索、图像与信号处 理和空间数据分析等多个领域。 从商业角度,数据挖掘是一种新的商业信息处理技术。其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性知识,即从一个数据库中发现相关商业模式。 数据挖掘是利用统计学和机器学习等技术,探求那些符合市场、客户行为的模式。如今数据挖掘已经可以使挖掘技术自动化,将数据挖掘与商业数据仓库相结合,以适当的形式将挖掘结果展示给企业经营管理人员。对于数据挖掘的应用不仅依靠良好的算法建立模型,而且更重要的是解决如何将数据挖掘技术集成到信息技术应用环境中。

  同时,还要有数据挖掘分析人员参与,因为数据挖掘技术不具备人所特有的经验和直 观,不能区分哪些挖掘出的模式在现实中是有意义的,哪些是无意义的。 因此,数据挖掘可以描述为:按企业既定业务目标,对企业数据进行探索和分析, 揭示隐藏的、未知的或验证已知的规律性,且进一步将其模型化的数据处理方法。 而常用的一些数据挖掘的定义,还有: 数据挖掘是一个确定数据中有效的,新的,可能有用的并且终能被理解的模式 的重要过程。 数据挖掘是一个从大型数据库中提取以前未知的,可理解的,可执行的信息并用 它来进行关键的商业决策的过程。 数据挖掘是用在知识发现过程以辨识存在于数据中的未知关系和模式的一些方 法。 数据挖掘是发现数据中有益模式的过程。 数据挖掘是为那些未知的信息模式而研究数据集的一个决策支持过程。 数据挖掘的另一个称呼是数据库中的知识发现。何谓知识?从广义上理解,数据、 信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员投身到数据 挖掘这一新兴的研究领域,形成许多新的技术热点。

应用

  数据挖掘已经在商业、企业、政府、科研及体育等多种不同类型的组织机构和领域中获得 了非常广泛的应用。 但是,我们也必须看到,要研究数据挖掘,必须强调所用方法的概念和属性,而不是机械的应用不同的数据挖掘工具。对方法、模型以及它们怎样运转及运转原理的 深入理解是有效和成功运用数据挖掘技术的先决条件。任何在数据挖掘领域的研究者和实践者都要意识到这些问题,以便成功地应用一种特定的方法,理解一种方法的 局限性,或者开发新技术。

参考资料:

  • 【学术论文】半监督学习及其应用研究

【数据挖掘】数据挖掘简介相关推荐

  1. 一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策树和CRISP-DM概念

    一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类.决策树和CRISP-DM概念 接前面系列4篇: 一小时了解数据挖掘①:解析常见的大数据应用案例 一小时了解数据挖掘②:分类算法的应用和成熟案例解析 ...

  2. 数据挖掘-数据挖掘综述-基础知识和概念总结

    数据挖掘-数据挖掘综述-基础知识和概念总结                                                  目录 数据挖掘-数据挖掘综述-基础知识和概念总结 1.数据 ...

  3. 数据挖掘技术简介[转]

    关键词: 关键词:数据挖掘    数据集合 1. 引言 数据挖掘(Data Mining)是从大量的.不完全的.有噪声的.模糊的.随机的数据中提取隐含在其中的.人们事先不知道的.但又是潜在有用的信息和 ...

  4. 常用数据挖掘算法简介

    1.朴素贝叶斯 朴素贝叶斯分类法是统计学分类方法,在特征条件独立的前提下,基于贝叶斯定理计算的隶属关系概率进行分类. 朴素贝叶斯分类有着坚实的数学基础和稳定的分类效率,同时,分类模型需要估计的参数很少 ...

  5. 常用数据挖掘工具简介

    转自: http://www.itongji.cn/article/062522R2013.html Dataminning指一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分 ...

  6. 九大数据挖掘方式简介

    基于数据挖掘的9大主要成熟技术以及在数据化运营中的主要应用: 1.决策树 2.神经网络 3.回归 4.关联规则 5.聚类 6.贝叶斯分类 7.支持向量机 8.主成分分析 9.假设检验 1 决策树 决策 ...

  7. 数据挖掘——数据挖掘的起源

    数据挖掘的定义还远没有达成一致,甚至没有定义出数据挖掘的构成. 数据挖掘起源于多种学科,其中最重要的是统计学和机器学习. 统计学起源于数学其强调的是数学的精确性: 机器学习主要起源于计算机实践其更倾向 ...

  8. 【数据挖掘】数据挖掘简介 ( 数据挖掘引入 | KDD 流程 | 数据源要求 | 技术特点 )

    文章目录 一. 数据挖掘引入 二. 数据挖掘简介 三. 数据挖掘 与 KDD ( Knowledge Discovery From Data ) 从数据到知识 四. 数据挖掘中的数据源 五. 数据挖掘 ...

  9. 机器学习与数据挖掘,机器学习算法简介

    ​什么是数据挖掘 数据挖掘就是从大量的数据中去发现有用的信息,然后根据这些信息来辅助决策.听起来是不是跟传统的数据分析很像呢?实际上,数据挖掘就是智能化的数据分析,它们的目标都是一样的.但是,又有很大 ...

  10. 数据挖掘简介及模型介绍(一)

    1. 简介 大数据时代正在唤醒企业通过利用客户数据获得竞争优势的机会.数据的广泛使用性和高度复杂性让仅使用传统决策技术来盈利变成不可能.这些传统方法主要使用电子表格,数据库查询和其它商业智能工具.另外 ...

最新文章

  1. python中列表和集合_15个例子掌握Python列表,集合和元组
  2. 如何用计算机弹出ink sans,INKSANS模拟器PC
  3. 计算机基础知识的重点,计算机基础知识重点
  4. 【算法学习】最优二叉查找树(动态规划)
  5. 数据库的移动 1007 sqlserver
  6. jquery验证框架validate的使用
  7. 方法大纲_社会工作师(中级)中级实务 考试大纲 附使用方法
  8. sqoop从mysql导入hive字符集的问题乱码问题
  9. java中经典的题目_java经典题目(一)
  10. 源码装置vsftpd
  11. 常用App用户体验找茬
  12. 局域网中简单的dhcp服务器的配置
  13. Windows环境上装在VM,VM安装CentOS7
  14. android选择选择图片封装库,Android_Album_android图片选择库
  15. 32位 java8u_java8下载 Java8.0U181官方正式版(32位/64位)
  16. 如何减小电压跟随器输出电阻_运算放大器和比较器还傻傻分不清楚?一篇图文教你轻松辨认...
  17. c语言数据结构实训报告总结,数据结构实训心得
  18. 【性能提升神器】STRAIGHT_JOIN
  19. Pandas拼接、数据分析实操
  20. php账单明细功能怎么实现,PHP实现微信优势对账单处理

热门文章

  1. inrange函数 python_为什么OpenCV的inRange函数不将我的HSV图像转换成二进制?
  2. mysql缓存hibernate_关于Hibernate缓存机制
  3. 2022我会成为高手吗
  4. 周期性定时事件的处理
  5. 利用邮箱实现数据通信
  6. java dbrecord_JFinal 独创 Db + Record 模式
  7. 山体等高线怎么看_地貌图知识(学了军事地图也会看)定向运动及野外生存入门技巧4...
  8. oracle触发器修改同一张表,oracle触发器中对同一张表进行更新再查询时,需加自制事务...
  9. vscode和anaconda结合的环境配置
  10. 文巾解题 198. 打家劫舍