迟到的续集与个性化活动之不确定性上篇博文(趣味数据挖之十)末尾许下一愿--介绍数据挖掘十大算法。在博友们友好的催促之下,现在才姗姗来迟,歉疚有加。凡人写博是十分个性化的业余活动(非平凡人物可能会雇佣团队写博);在科技的春种秋收季节,人们总会遇到若干突然冒出来的任务,而在次要活动中,最先停下来为正事让时间的,就是读博写博。
言归正传,这篇突出资料性,先说三十年的十大算法,看数据挖掘的史上辉煌,再叙七年前提出的十大问题,证数据挖掘专家不是砖家;下一篇用实例解释的数据挖掘哲学思想,作一个有趣味的系列小结。

 数据挖掘在而立之年论功行赏:评选十大算法数据挖掘大致萌芽于上世纪70年代,例如,在先期探索基础上,1978年,Ross J. Quinlan提出判定树方法ID3,后来发展为成为 C4.5 算法,参见(趣味数据挖掘之六)。几年前,数据挖掘学科进入了“而立”之年,向“不惑”推进, 那时节,研究对象天天拓广,研究团队日益繁荣,老人要评功,新人要成长。有人顺天应时,提出动议:回顾成败、论功行赏、反思问题、展望未来。此议一呼,举“界”百应。

经过一段时间酝酿,以ICDM 2006为依托,广发英雄牒,邀请ACM KDD 发明奖得主和IEEE ICDM 研究贡献奖得主,作为数据挖掘十大算法提名委员会专家,得到积极响应。
  
  严密的三阶段评选程序: 组织者提出了三阶段评选程序:
  (1)提名阶段:给出被提名算法名称,作简短评价,提出代表性人物;
  (2)验证阶段:验证软件效率,查被引用频次,要求在2006.10月底,在Google Scholar上至少查出被引用50次以上。这里选用Google Scholar,而不是SCI,EI,是因为在当时,数据库和数据挖掘界的几个顶级会议(SIGMOD,VLDB,ICDE,ICDM等)以其水平和难度,堪称数据库界的奥林匹克或世界级锦标赛,但却被SCI 和EI遗忘。
另类的二八规律提名和验证两阶段共推选出18个算法,并按验证指标排序。自然,其中8个在后来投票中未进入Top10,不妨称为提名奖得主,在高手如云的激烈竞争中,提名奖也是难得的荣誉。
  巧得很,18个算法在后来的投票阶段中,只有两名从10名后升进10名前:即第11名 K-Means(参见--趣味数据挖掘之八)和第13名AdaBoost,占20%;而原Top10中的80%在在前10中 站稳了脚跟,不知这算不算另类的二八规律,即临近投票前的再努力,包括解释、演示和其他活动(包括会下幕前的和幕后的活动)可能有20%的作用。
  8个提名奖下面列出获提名奖的算法名次、名称及首发文章。注意,其中,华裔学者韩家炜在出现了三次,裴健出现了两次。清单如下:
#8. FP-Tree: Han, J(韩家炜)., Pei, J.(裴健), and Yin, Y. 2000. Mining frequent patterns without candidate generation. In SIGMOD '00. Link Mining。挖掘关联规则的快速算法;
#10. HITS: Kleinberg, J. M. 1998. Authoritative sources in a hyperlinked environment. In Proceedings of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, 1998.网页超链诱导主题搜索;

#12. BIRCH Zhang, T., Ramakrishnan, R., and Livny, M. 1996. BIRCH: an efficient data clustering method for very large databases. In SIGMOD '96.聚类算法;
#14. GSP: Srikant, R. and Agrawal, R. 1996. Mining Sequential Patterns: Generalizations and Performance Improvements. In Proceedings of the 5th International Conference on Extending Database Technology, 1996.时间序列模式挖掘;
#15. PrefixSpan: J. Pei(裴健), J. Han(韩家炜), B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal and M-C. Hsu. PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth. In ICDE '01.时间序列模式挖掘;
#16.CBA: Liu, B., Hsu, W. and Ma, Y. M. Integrating classification and association rule mining. KDD-98. ?? Rough Sets ,分类算法;
#17. Finding reduct: Zdzislaw Pawlak, Rough Sets: Theoretical Aspects of Reasoning about Data, Kluwer Academic Publishers, Norwell, MA, 1992 ,粗糙集理论;
#18. gSpan: Yan, X. and Han, J(韩家炜). 2002. gSpan: Graph-Based Substructure Pattern,图数据挖掘;
  
  (3) 投票阶段:为保证广泛的代表性和公正性,投票委员会在提名委员会基础上做了扩大,增加了 KDD-06, ICDM '06, SDM '06 三个国际会议的程序委员会委员。投票前,由推选的第三方专家介绍算法及其学术影响(被引用情况等),研究应用现状以及前景,充分酝酿基础上,投票产生了Top 10.
 数据挖掘 Top 10 十大算法按得票数排序如下:
#1: C4.5 (61 票), (判定树或决策树,分类算法 ,参见趣味数据挖掘之六;)
#2:K-Means (60票),(K-平均聚类算法,参见趣味数据挖掘之八);
#3: SVM (58票),(分类算法)(支持向量机,分类算法);
#4: Apriori (52票), (关联规则挖掘算法,参见趣味数据挖掘之三);
#5: EM (48票),(期望最大化算法,聚类与参数估计);

#6: PageRank (46票), (著名的google页面评价算法);
#7: AdaBoost (45票), (积弱为强的分类算法);
#7: kNN (45票),(以近邻为楷模的分类方法);
#7: Naive Bayes (45票),(基于对象原生态分布的分类算法,比较忠实于数据的原汁原味,不需或少需先验知识);
#10: CART (34票), (二分递归分割的的判定树分类方法);

其中研究分类的6个,聚类的2个,关联的一个,网页排序(本质上是分类)的一个。似有“分类独大”的现象,可见分类问题被研究得较彻底,问题的油水似被榨干,如果在分类方面还有遗留问题,可能是比较难啃的骨头问题,要等待不怕困难的、有缘的年轻人去发现、去创新了。

数据挖掘向何处去--- 7年前的10大问题.为表达远见卓识,专家们常自问自答这样的问题:本领域向何处去?下一代关键技术是什么?本领域未来十年的研究什么?
试玉要烧三日满,辨才须待七年期;是真知灼见的专家还是忽悠人的“砖家”?七年之后看。
在数据挖掘的顶级国际会议ICDM 2005上,一批专家提出了10个挑战性问题,如今刚满七年,让我们来看看这十大挑战性问题,看看今天的研究状态:
 问题1数据挖掘的统一理论。十年前,专家看到当时的数据挖掘中急用先研的短期行为较多,为单个问题研究技术,无统一的理论 ,目光不远大, 至今,比较完整的数据挖掘的同一理论还在探索中;
问题2规模伸缩性、高维和高速问题。十年前的数据挖掘技术,在维度增加,数据规模增大时,所需资源(时间、空间和CPU)指数级地增加,在数据流分析、网络攻防、传感器网络应用中成为瓶颈;如今问题仍然在;
问题3时间序列的高效率处理+ 高效分类聚类和预测,如今,在短长期预报,高精度处理方面问题仍然存在;
问题4复杂数据总挖掘复杂知识,如图数据挖掘等表现突出,如今,在亚复杂系统干预规则的挖掘中也有需求;
问题5网络挖掘,社会网络,邮件,网页,网络反恐,海量数据挖掘等;问题仍然存在;
问题6分布式挖掘和多代理挖掘,如大型网络游戏,网络军事对抗等,需求日益增加;
问题7生物数据挖掘 艾滋病疫苗相关、DNA相关的数据挖掘,方兴未艾;
问题8数据挖掘自身的方法论研究, 尚待突破;
问题9数据挖掘与信息安全和隐私保护;成为目前关注热点;
问题10. 特色数据的挖掘:包括高价值数据(如重症监护室数据),偏斜数据(抽样偏斜失真),不平衡数据(有用的只占很小比例)。

专家毕竟是专家如今,七年过去了,人们欣慰地看到,专家不是砖家,他们提出的问题指导着这些年的研究方向。七年中出现了若干新事物,引出了若干新问题, 如物联网相关的数据挖掘, 云计算相关的数据挖掘,但上述十大问题还在被研究被解决,推动着数据挖掘的理论、系统和应用。

继承、发展和创新今天我们复习数据挖掘十大算法,知道什么是好成果,是为了继承;复习十大问题,知道未来将在何处出好成果,是为了发展;

创新始终是研究的核心,什么是创新?创新就是于无中生有;什么是掀起潮流?掀起潮流就是于学术沉闷中兴风作浪;在学术的激流中能掀起一个小小的漩涡,也比总是跟潮更有劲,更有前途。

转载于:https://www.cnblogs.com/no1java/archive/2012/12/03/2799428.html

十大算法展辉煌历史,十大问题引锦绣前程相关推荐

  1. 神经网络十大算法有哪些,神经网络十大算法排名

    数学建模的十大算法 . 1.蒙特卡罗算法(该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟可以来检验自己模型的正确性,是比赛时必用的方法)2.数据拟合.参数估计.插值等数据 ...

  2. 人工智能领域的十大算法

    事实上,人工智能已经存在于我们生活中很久了.但对很多人来讲,人工智能还是一个较为"高深"的技术,然而再高深的技术,也是从基础原理开始的.人工智能领域中就流传着10大算法,它们的原理 ...

  3. 二十世纪最伟大的十大算法

    发明十大算法的其中几位算法大师 一.1946 蒙特卡洛方法 [1946: John von Neumann, Stan Ulam, and Nick Metropolis, all at the Lo ...

  4. 20世纪最伟大的十大算法

    发明十大算法的其中几位算法大师 一.1946 蒙特卡洛方法[1946: John von Neumann, Stan Ulam, and Nick Metropolis, all at the Los ...

  5. 大数据时代,世界伟大的十大算法大师

    本文转载自科多大数据 大数据产业的快速发展,人类文明进入一个全新的时期,即大数据时代,这个时代的来临需要很多伟大的发明家的付出和贡献,本文为大家介绍世界上伟大的十大算法大师. 1.伟大的智者--Don ...

  6. 【数据结构与算法】 常用的十大算法

    常用的十大算法: 文章目录 常用的十大算法: 1.二分查找算法(非递归): 2.分治算法 2.1分治算法介绍 2.2 分治算法的基本步骤 2.3 分治算法最佳实践-汉诺塔 2.4 动态规划算法 2.4 ...

  7. 【机器学习】十大算法之一 “PCA”

    作者主页:爱笑的男孩.的博客_CSDN博客-深度学习,活动,python领域博主爱笑的男孩.擅长深度学习,活动,python,等方面的知识,爱笑的男孩.关注算法,python,计算机视觉,图像处理,深 ...

  8. 机器学习十大算法汇总

    机器学习十大算法汇总 目录: 机器学习十大算法汇总 前言: 机器学习的十大算法: 总结 前言: 什么是机器学习算法? 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它 ...

  9. 十大算法,描述+代码+演示+分析+改进(赶紧收藏!)

    十大算法 1.冒泡排序 ​ (1)算法描述 ​ 冒泡排序是一种简单的排序算法.它重复地走访过要排序的数列,一次比较两个元素,如果它们的顺序错误就把它们交换过来.走访数列的工作是重复地进行直到没有再需要 ...

最新文章

  1. Quality Certificate Check at Goods Receipt
  2. 访问数据段时的特权级检查,修改SS时的特权级检查——《x86汇编语言:从实模式到保护模式》读书笔记30
  3. 03_MyBatis基本查询,mapper文件的定义,测试代码的编写,resultMap配置返回值,sql片段配置,select标签标签中的内容介绍,配置使用二级缓存,使用别名的数据类型,条件查询ma
  4. C语言技巧之长度为0的数组
  5. UVA 10604 Chemical Reaction
  6. MPEG-2码流结构分析
  7. 网管工具-snmpset使用总结
  8. 计算机设计大赛的感悟,计算机设计大赛含金量
  9. 干货---ARCGIS拓扑规则说明详细讲解
  10. SageMath cputime()
  11. 推荐16本平面设计书籍,学平面设计必看的书不要错过哦
  12. FastQC 与 质控
  13. 什么是reactor模式?
  14. 一种ESP8266使用MQTT连接阿里云和云Web方法
  15. 公司用的 MySQL 团队开发规范,太详细了,建议收藏!
  16. 字母排序 字符串跟字符串比较大小 字符串跟数字比较大小
  17. 初识 Python 科学计算库之 NumPy(创建多维数组对象)
  18. Erphpdown v11优化版下载与使用-WordPress免登录支付插件
  19. java visualvm 教程_Java性能分析神器--VisualVM Launcher[1]
  20. Cisco AP镜像中的ap1g1 ap1g2,ap3g1什么含义?

热门文章

  1. 每天干的啥?(2018.02)
  2. 1.通过PADS Logic创建原件类型和逻辑封装
  3. 吐血整理!14个编写Spring MVC控制器的实用小技巧
  4. Flask学习笔记之g对象
  5. Qt Quick 如何入门?
  6. 【实用教程】Xshell6远程连接阿里云轻量应用服务器
  7. 基于stm32f103的红外对管(TCRT5000)接收发送
  8. 1字节不是一定是8位。
  9. 7个适用于所有Web开发人员的设计资源网站
  10. 小城里的“明星”产业,有微信云托管保驾护航