吴信东--数据挖掘top10算法
背景:
09年12.31日下午,应清华大学智能计算实验室邀请,吴教授在清华深圳研究院C栋做了一个讲座。
人物:
吴信东,计算机科学家,数据挖掘领域知名学者。
(以下来自http://zx.china-b.com/hfgydx/zixun_22448.html)
吴信东教授是国际学报知识与信息系统(Knowledge and Information Systems)的创办人、主编(1999年1月~2004年12月) 、和名誉主编(2005年1月至今) ,国际电机与电子工程师学会“国际数据挖掘大会”(IEEE International Conference on Data Mining) 的创办人和指导委员会主席(2001年至今),德国Springer出版社高等信息与知识处理(Advanced Information and Knowledge Processing)系列丛书的两名主编之一,和国际电机与电子工程师学会计算机学会(IEEE Computer Society)智能信息处理(Intelligent Informatics)委员会的主任(2002~2008)。他曾受邀、受聘在11个国际会议上作特邀或主题报告,在8份学术期刊的编委会和100多个专业会议的程序委员会上担任各种职务,包括《IEEE Transactions on Knowledge and Data Engineering》的副编(Associate Editor, 2000年1月~2003年12月)、主编(2005年1月至今)、和几个会议的大会主席或程序委员会主席。
(以下来自http://zh.wikipedia.org/wiki/%E5%90%B4%E4%BF%A1%E4%B8%9C)
- 1984年8月获合肥工业大学微型机应用研究所计算机应用学士学位。
- 1987年7月获合肥工业大学计算机与信息系计算机应用硕士学位。
- 1993年7月获英国爱丁堡大学人工智能博士学位。
- 1987年7月至1991年3月在合肥工业大学任助教。
- 1993年7月至2001年8月,曾先后在澳大利亚的詹姆士库克大学(James Cook)任讲师,蒙纳许大学(Monash)任高级讲师,和美国的科罗拉多州立矿业学院(Colorado School of Mines)任副教授。
- 2001年9月至今,在美国佛蒙特(Vermont)州佛蒙特大学计算机科学系任正教授兼系主任。
讲座主题:
主要介绍评选top10算法的整个过程,从想法到最终实现。
内容概览:
top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告,会后有一名内地的教授提出了一个类似的想法。吴教授觉得非常好,开始着手解决这个事情。找了一系列的大牛(都是数据挖掘的大牛),都觉得想法很好,但是都不愿自己干。原因估计有一下几种:1.确实很忙2.得罪人3.一系列工作很繁琐等等。最后和明尼苏达大学的Vipin Kumar教授一起把这件事情承担下来。先是请数据挖掘领域获过kdd和icdm大奖的十四个牛人提名候选,其中一人因为确实很忙,正从ibm转行到微软,吴教授虽然没提其名字,但从经历来看,应该就是我眼中的数据挖掘之父印度人--Rakesh Agrawal,就是他没有给出提名,其他13位都给出了自己心中的候选。经过汇总和筛选,共有18个算法,涵盖分类,聚类,图挖掘,关联分析,rough set等领域。由于是算法,一些比较有影响的领域,如神经网络,进化算法等都没有一个特别具体的算法,只能是一个比较大的框架或者思想等,就没有入选。汇总后,吴和Vipin Kumar就开始吵架,吴想删掉一些算法,比如naive bayes,他觉得过于简单,而Vipin Kumar则想添加一些,比如基于规则的挖掘算法(忘记吴是怎样说的了,大概就是这个意思)。最后作为一个折中,谁都没有增删其中的算法。第二步请更多的大牛,包括其中提名的那些最大牛进行投票,每人仅有一票,最终得出了其中的10个作为最后的算法。有些人的几个算法(韩家炜教授有三个算法成为候选,但一个也没有进入top10)都很优秀,却因为开创性,影响力等问题一个也没有入选最终名单。
在大会上宣布的时候,要请一些人来讲这些算法,大家都开开心心的来了,却因为算法的前后排名不高兴。(邀请的时候没说排名,只说进入top10),cart的宣讲人是该系统的拥有公司的一个技术顾问来讲的(发明此算法的四位统计学家,如breiman等,由于年龄问题,其中两位都已经过世了,有一个已经退休,都无法前来,而且他们已经将cart的所有权全部转让给一家公司了),一看自己是第一个讲得,不开心,尽管是凤尾,呵呵。等到最后一个讲完,他更是不开心,原因是第一个竟敢是C4.5,这个和cart都是决策树的经典算法,而且cart还比c4.5提出来的早,c4.5的一些思想直接或间接来源于此。吴见状,上前道:您觉得这十个算法哪几个容易被人凝记,这人带气曰:“我哪知道”,吴答道:最后一个和最前一个,这人呵呵一笑,笑得是老有深意啦。
特别爆料:
另据吴教授讲,他正准备在明年悉尼的会议上推出top10 case,既是数据挖掘应用的十个案例(或者领域),大家期待吧!
附数据挖掘top 10算法列表:
C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART
详细论文请参阅:http://cid-e9e3c8934f6e9b47.skydrive.live.com/self.aspx/Papers/Top%2010%20algorithms%20in%20data%20mining.pdf
吴信东--数据挖掘top10算法相关推荐
- 吴信东:数据挖掘算法的经典与现代
2020-06-08 22:10:23 作者 | 蒋宝尚 编辑 | 丛 末 6月6日,中国计算机学会(CCF)主办的中国计算机学会青年精英大会(CCF YEF)在线上举行,在"经典流传的机器 ...
- 为什么数据中台如此重要?明略科技吴信东:智能时代企业核心竞争力之源 | MEET2020...
十三 整理自 吴信东发言 量子位 报道 | 公众号 QbitAI 中台很重要,数据中台格外重要. 数字化转型无疑成了当下一个不可阻挡的大浪潮.而在今年,中台这两个字随着阿里巴巴.腾讯.华为等巨头的战 ...
- 数据挖掘Apriori算法
数据挖掘Apriori算法 数据挖掘(Data Mining)就是从大量的.不完全的.有噪声的.模糊的.随机的实际应用数据中,提取隐含在其中的.人们事先不知道的.但又是潜在有用的信息和知识的过程.挖掘 ...
- 总奖池31万!智能零售柜商品识别,“信也科技杯”算法大赛启动
铁汁们!它回来啦!! 第六届信也科技杯心动登陆 六岁,可见证一个孩子从稚嫩期步入学龄期:六年,可陪伴信也魔镜杯变身信也科技杯,漫漫岁月,信也为技术发烧友们提供交流平台的初心至此如一. 2021年,第六 ...
- 《BI那点儿事》数据挖掘各类算法——准确性验证
<BI那点儿事>数据挖掘各类算法--准确性验证 原文:<BI那点儿事>数据挖掘各类算法--准确性验证 准确性验证示例1:--基于三国志11数据库 数据准备: 挖掘模型: 依次为 ...
- 数据挖掘——时间序列算法之ARCH模型
数据挖掘--时间序列算法之ARCH模型 先占个坑 1.平滑法 2.趋势拟合法 3.组合模型 4.AR模型 5.MA模型 6.ARMA模型 7.ARIMA模型 8.ARCH模型 9.GARCH模型及其衍 ...
- 数据挖掘神经网络算法,人工神经网络分析方法
大数据分析方法分哪些类 本文主要讲述数据挖掘分析领域中,最常用的四种数据分析方法:描述型分析.诊断型分析.预测型分析和指令型分析. 当刚涉足数据挖掘分析领域的分析师被问及,数据挖掘分析人员最重要的能力 ...
- 数据挖掘分类算法的学习总结
一.中文摘要 大数据时代的我们每时每刻都在产生海量数据,如何快速准确获取其中有价值的数据一直是亟待解决的问题.数据挖掘技术的应运而生为该问题提供了解决手段,作为数据挖掘核心内容之一的分类算法同样发挥了 ...
- 数据挖掘——时间序列算法之MA模型
数据挖掘--时间序列算法之MA模型 1.平滑法 2.趋势拟合法 3.组合模型 4.AR模型 5.MA模型 6.ARMA模型 7.ARIMA模型 8.ARCH模型 9.GARCH模型及其衍生模型 前一篇 ...
最新文章
- 【OkHttp】OkHttp 源码分析 ( 网络框架封装 | OkHttp 4 迁移 | OkHttp 建造者模式 )
- Mastercam X9中文版
- HTTP_请求消息_请求行
- java自动随机字符_java随机字符生成工具
- MHA命令系统介绍--masterha_manager
- inno setup 中文乱码问题_解决Inno Setup制作中文安装包在非中文系统上显示乱码的问题...
- iOS应用性能调优建议
- python接口自动化(二十六)--批量执行用例 discover(详解)
- yarn-site.xml相关配置参数
- 深入了解Spring的@Scope注解中作用域代理proxyMode属性的实现
- 解决VC2013运行窗口快速闪现问题
- FileHandler文件处理
- 【雅思大作文考官范文】——第十五篇:'high salaries' essay
- Facebook币Libra学习-6.发行属于自己的代币Token案例(含源码)
- js 格式化prettier配置_使Prettier一键格式化WXSS
- 考试系统设计oracle,在线考试系统的设计与实现|毕业设计源代码|论文开题报告|Oracle...
- python乘车费用 青少年编程电子学会python编程等级考试二级真题解析2020年6月
- 《春田花花同学会》--做OL的好处
- Apache Thrift 官方JAVA教程
- 300000000元!短融网获C轮融资,CEO王坤透露了几点信息