赵民德 2003/01/24

 市场竞争的激烈迫使企业高层寻找更为科学、系统、有效的辅助决策技术和整体解决方案来处理日益复杂的公司事务。毫无疑问,数据挖掘就是很好的选择之一。数据挖掘到底是什么?数据挖掘作为一个过程,是否有章可循、有规可依?企业应该在哪些领域应用数据挖掘技术?目前,数据挖掘的技术咨询、系统集成、工具软件的状况究竟怎样?新年伊始,我们和中国人民大学数据挖掘中心一起精心组织推出这个专题,希望通过这个专题向读者传递实用的信息。 
  Data Mining(数据挖掘,下文简称DM),光是看它的数据量,绝对是一头大象。各家各派对它的看法不同,因为各人摸到的是自己可以摸到的那一部分。我虽然知道,同时也极力呼吁DM应以实用为主,但基本上还是学院派。通常,学院派的人认为,如果一件事一定可以做成,那么也就不免无趣。 
   
  
数据挖掘的缘起 
  

  什么叫Data Mining?关于定义,各人的说法不一。基本上我们可以用一个例子讲清楚:先给你一个大的数据集──假设你可以从中读取数据,下面的问题是:从这里你可以得到什么?从某种角度来看,这是百分之百的统计分析工作,只是数据集太多的缘故罢了。但我们并不想忘记这些数据集是做 IT 的人这么多年来逐渐制造出来的,更何况他们对于如何有效而快速地存储、选取和管理数据,确是有一套真功夫。在 IT 的骨架上把统计的精髓放进去,这的确是对现在这个信息时代的大挑战。 
  

  时代变了,现在的数据来得既多又快还便宜,多到没有人有时间去看的程度。这就如同我们的医疗体系。早先的医生还要望闻问切,在少量的数据中,设法提取、组合出最好的治疗方案。现在则是一个名医,一上午要在门诊医治一百五十个病人以上。他只能凭某种算法、也就是经验来看病:问一两个问题,听一两个问题,然后开药。这种对数据的不同的处理方式是数据挖掘和传统的数据分析的主要区别。 
  

  说实在的,我们已经在某些方面具有相当的信息化程度了。你去任何一家医院看病,哪一个窗口没放着一台PC?医生暗示你可以离开的时候,值班的护士已经在她的 PC 上键入了许多你的资料。于是你直接可以去划价、取药,连下一次的预约也有人安排好了。前天,我去医院借了一张X光片,一位五十多岁的老职员用“一阳指”在键盘上一步一个“脚印”地敲了不知多久,才输入了该有的个人信息,然后大家就都松一口似地让计算机去跑,最后当然是拿到X光片。这时回顾身后,已排了一条长龙。 
  

  这种情况,也暗示着目前信息社会的一类尴尬问题:很多事情都还配不上如此快的计算机—老职员的手指速度固然配不上,我们做统计的人和现有的某些统计方法也配不上,甚至于很多统计观念恐怕也都配不上。于是 IT 的人就跳进来做了个项目:既然有了花大钱做出来的数据库,而且这么多年下来数据堆得满坑满谷,好歹要告诉出钱的老板“这有什么用”。于是,DM便应运而生了。 
  

  
如何看待数据挖掘 
  

  数据挖掘是先有了数据才兴起的行业。我不想说“学问”,因为到现在为止,我好像都看不到大学问。数据挖掘能帮我做什么?不同的人有不同的看法,比较乐观的是Berry and Linoff (1997) 的说法:分析报告给你后见之明 (hindsight);统计分析给你先机 (foresight);数据挖掘给你洞察力 (insight)。 
  

  这话说得太强,我不是那么地相信。因为这三者都是在既有的数据上做分析,在概念上应该并无本质区别,差别只是手上的数据集的大小和性质,因此,由方法的不同才有定义的不同。 
  

  较负面的理解来自Friedman (1997),他说:“Data mining is a commercial enterprise that seeks to mine the miners。(数据挖掘就是商业企业竭力去寻找挖掘者的过程。)”这句话有多少真实的成分,我并不清楚,但是酸味还是有一点的。在雅虎上键入“Data Mining”,立刻便找到一百五十多个网址。如果用Google 搜寻,它在0.34秒内就找到1,260,000项查询结果。这是在方法论都还没有成熟之前便已有大量商品充斥的情形。看起来真是商机无限。在另一方面,我却在文献上读到:“…… while I appreciate the importance of data mining, in practice the profit it brings has turned out to be surprisingly limited in many key businesses.(虽然我认可数据挖掘重要性,事实上,在很多关键的业务中,它所带来的利润已证明出奇有限。” (Kann 2000) 
  

  多半的数据库在建造时都另有目的,并不是设计来给大家挖掘的。上帝给我们大海,也许只是想给我们盐。现在盐的利润有限,大家就拼命去提炼铀,结果自然就不会十分理想。 
  

  我认为,比较中肯的是 Hand et al. (2000) 的说法:“Data mining is the process of seeking interesting or valuable information in large data bases.(数据挖掘是一种在大型数据库中寻找你感兴趣或是有价值信息的过程。)” 
  

  
挖掘需要“用心看” 
  

  Demming (1943) 曾说过:“搜集数据的目的是为了行动。”这是在数据的搜集并不便宜的时候所说的话。现在要反过来看:已经有了一大堆数据,当初只是为了搜集而搜集──因为反正不贵,而且说不定某一天会有用─现在我们应该问,这些数据可以提供怎样的信息,能让数据的所有者采取何种有效的行动?我的意思是我们需要用心地去看这些数据。“用心看”有两个角度:整体和局部。 
  

  从整体看: 模型 
  

  从整体的角度来看一个数据集,是靠统计学里面的抽样方法就可以发挥得不错的。抽样的要点是细化──用一组较小的、容易处理的精选的数据来反映整体。在这里我们可以做一大堆传统的建模工作,但这里面最主要的观念是抽样。 
  

  例如 SAS 的Enterprise Miner软件中所构建出来的“表格”,就是全部数据的抽样所得。从抽样的观点来看,数据量再多也不是问题──它反而可使抽样理论更加简单。在数据库上抽样,成本低,且没有我们最头痛的non-response(无反应)问题。这一部分,可以说是所有我们想做的理论和方法都十分成熟, 只要找一群还不错的人,将这些已知的事物组合包装就好。在表格上做传统分析,最后的结果当然是一个可以用来描绘所有数据之间的关系的模型。 
  

  从局部看: 模式发现 
  

  从局部的角度来看数据挖掘,到目前为止,主要的目的是模式发现。这和我们常听到的模式识别颇有不同。用雷达找飞机的工作,算是后者──我们知道飞机是我们要找的对象。但是在数据挖掘中,我们在通常情况下并不知道我们要找的东西是什么。在技术上,这也不能通过抽样的方法来做。模式是数据的局部结构,在这一部分,数据挖掘强调的方法是算法。数据一多,光凭人力是不能完全解决问题的,我们只有靠明确的指令让计算机一个一个帮我们找。那么在这里,我们就完全用不上统计方法吗?也不尽然。在提取训练样本(training sample)的时候,我们是可以把实验设计的想法放进去的。

数据挖掘讲座:我所知道的一点Data Mining相关推荐

  1. 【翻译】StreamDM:基于Spark Streaming的高级数据挖掘 StreamDM: Advanced Data Mining in Spark Streaming

    [翻译]StreamDM:基于Spark Streaming的高级数据挖掘 StreamDM: Advanced Data Mining in Spark Streaming 摘要 Abstract ...

  2. Data Science Foundations: Data Mining 数据科学基础:数据挖掘 Lynda课程中文字幕

    Data Science Foundations: Data Mining 中文字幕 数据科学基础:数据挖掘 中文字幕Data Science Foundations: Data Mining 所有数 ...

  3. CRISP-DM (cross-industry standard process for data mining)跨行业数据挖掘过程标准

    CRIP-DM+SEMMA CRISP-DM (cross-industry standard process for data mining),即为"跨行业数据挖掘过程标准". ...

  4. 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics

    数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...

  5. 数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么

    数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics ...

  6. data Mining with Weka: Trailer More Data Mining with Weka 用weka 进行数据挖掘 Weka 用weka 进行更多数据挖掘...

    https://www.youtube.com/user/WekaMOOC 大学公开课  视频教程 weka 入门教程 data Mining with Weka: Trailer  More Dat ...

  7. java data mining_“JDM”是“Java Data Mining”的缩写,意思是“Java数据挖掘”

    1. Based on CORBA specification, this paper concentrates on the development and research of Tianjin ...

  8. R语言图形用户界面数据挖掘包Rattle介绍、安装、启动、介绍(Using the rattle package for data mining)

    R语言图形用户界面数据挖掘包Rattle介绍.安装.启动.介绍(Using the rattle package for data mining) 目录

  9. Data Mining 论文翻译:Deep Learning for Spatio-Temporal Data Mining: A Survey

    原文链接:[1906.04928] Deep Learning for Spatio-Temporal Data Mining: A Survey (arxiv.org) IEEE Transacti ...

最新文章

  1. Python的知识点 plt.plot()函数细节
  2. opencv线结构光三维重建
  3. 关闭linux远程桌面,[Linux]Ubuntu 16.04 远程桌面(简单暴力)
  4. 【全电发票】开票金额总额度发生了什么变化?
  5. 前端 javascript 数据类型 字典
  6. Linux修改密码后不能SSH远程登录了
  7. Leaflet笔记-把leaflet-tilelayer-wmts移植到vue cli中(含思路)
  8. php 安全基础 附录 A. 配置选项
  9. TensorFlow实现流行的机器学习算法教程
  10. C语言通过枚举网卡,API接口可查看man 7 netdevice--获取接口IP地址
  11. php命令模式,老生常谈PHP面向对象之命令模式(必看篇)
  12. c语言实验--九九乘法表,C语言实验报告(四)
  13. 配置 Exchange ActiveSync 身份验证
  14. SpringBoot实现MySQL读写分离
  15. tomcat服务器拒绝访问文件,tomcat拒绝访问特定文件
  16. Python爬虫之头条采集免费方法
  17. SuperMap Desktop制作地图
  18. 持久内存指令(PMDK)简介
  19. 30元云主机包月不是梦
  20. 【千律】OpenCV基础:图像阈值分割 -- 自适应阈值分割 -- 代码实现

热门文章

  1. DW Question Answer Pro 1.3.4 DWQA问答系统插件
  2. [云炬创业基础笔记]第七张创业团队测试5
  3. 【CAD制图视频】AutoCAD 2014 高手之道
  4. USTC English Club Note20171014(2)
  5. 科大星云诗社动态20210309
  6. 为什么资本主义生产的一般趋势是资本有机构成的提高?2017-12-26
  7. 【web实战2】基于源码搭建小说自动采集网站
  8. 我的个人网站更新了!
  9. markdown一边写一边预览_如何用Markdown轻松排版知乎专栏文章?
  10. 小波的秘密9_图像处理应用:图像增强