背景:

09年12.31日下午,应清华大学智能计算实验室邀请,吴教授在清华深圳研究院C栋做了一个讲座。

人物:

吴信东,计算机科学家,数据挖掘领域知名学者。

(以下来自http://zx.china-b.com/hfgydx/zixun_22448.html)

吴信东教授是国际学报知识与信息系统(Knowledge and Information Systems)的创办人、主编(1999年1月~2004年12月) 、和名誉主编(2005年1月至今) ,国际电机与电子工程师学会“国际数据挖掘大会”(IEEE International Conference on Data Mining) 的创办人和指导委员会主席(2001年至今),德国Springer出版社高等信息与知识处理(Advanced Information and Knowledge Processing)系列丛书的两名主编之一,和国际电机与电子工程师学会计算机学会(IEEE Computer Society)智能信息处理(Intelligent Informatics)委员会的主任(2002~2008)。他曾受邀、受聘在11个国际会议上作特邀或主题报告,在8份学术期刊的编委会和100多个专业会议的程序委员会上担任各种职务,包括《IEEE Transactions on Knowledge and Data Engineering》的副编(Associate Editor, 2000年1月~2003年12月)、主编(2005年1月至今)、和几个会议的大会主席或程序委员会主席。

(以下来自http://zh.wikipedia.org/wiki/%E5%90%B4%E4%BF%A1%E4%B8%9C)

  • 1984年8月获合肥工业大学微型机应用研究所计算机应用学士学位。
  • 1987年7月获合肥工业大学计算机与信息系计算机应用硕士学位。
  • 1993年7月获英国爱丁堡大学人工智能博士学位。
  • 1987年7月至1991年3月在合肥工业大学任助教。
  • 1993年7月至2001年8月,曾先后在澳大利亚的詹姆士库克大学(James Cook)任讲师,蒙纳许大学(Monash)任高级讲师,和美国的科罗拉多州立矿业学院(Colorado School of Mines)任副教授。
  • 2001年9月至今,在美国佛蒙特(Vermont)州佛蒙特大学计算机科学系任正教授兼系主任。
  • 讲座主题:

    主要介绍评选top10算法的整个过程,从想法到最终实现。

    内容概览:

    top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告,会后有一名内地的教授提出了一个类似的想法。吴教授觉得非常好,开始着手解决这个事情。找了一系列的大牛(都是数据挖掘的大牛),都觉得想法很好,但是都不愿自己干。原因估计有一下几种:1.确实很忙2.得罪人3.一系列工作很繁琐等等。最后和明尼苏达大学的Vipin Kumar教授一起把这件事情承担下来。先是请数据挖掘领域获过kdd和icdm大奖的十四个牛人提名候选,其中一人因为确实很忙,正从ibm转行到微软,吴教授虽然没提其名字,但从经历来看,应该就是我眼中的数据挖掘之父印度人--Rakesh Agrawal,就是他没有给出提名,其他13位都给出了自己心中的候选。经过汇总和筛选,共有18个算法,涵盖分类,聚类,图挖掘,关联分析,rough set等领域。由于是算法,一些比较有影响的领域,如神经网络,进化算法等都没有一个特别具体的算法,只能是一个比较大的框架或者思想等,就没有入选。汇总后,吴和Vipin Kumar就开始吵架,吴想删掉一些算法,比如naive bayes,他觉得过于简单,而Vipin Kumar则想添加一些,比如基于规则的挖掘算法(忘记吴是怎样说的了,大概就是这个意思)。最后作为一个折中,谁都没有增删其中的算法。第二步请更多的大牛,包括其中提名的那些最大牛进行投票,每人仅有一票,最终得出了其中的10个作为最后的算法。有些人的几个算法(韩家炜教授有三个算法成为候选,但一个也没有进入top10)都很优秀,却因为开创性,影响力等问题一个也没有入选最终名单。

    在大会上宣布的时候,要请一些人来讲这些算法,大家都开开心心的来了,却因为算法的前后排名不高兴。(邀请的时候没说排名,只说进入top10),cart的宣讲人是该系统的拥有公司的一个技术顾问来讲的(发明此算法的四位统计学家,如breiman等,由于年龄问题,其中两位都已经过世了,有一个已经退休,都无法前来,而且他们已经将cart的所有权全部转让给一家公司了),一看自己是第一个讲得,不开心,尽管是凤尾,呵呵。等到最后一个讲完,他更是不开心,原因是第一个竟敢是C4.5,这个和cart都是决策树的经典算法,而且cart还比c4.5提出来的早,c4.5的一些思想直接或间接来源于此。吴见状,上前道:您觉得这十个算法哪几个容易被人凝记,这人带气曰:“我哪知道”,吴答道:最后一个和最前一个,这人呵呵一笑,笑得是老有深意啦。

    特别爆料:

    另据吴教授讲,他正准备在明年悉尼的会议上推出top10 case,既是数据挖掘应用的十个案例(或者领域),大家期待吧!

    附数据挖掘top 10算法列表:

    C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART

    详细论文请参阅:http://cid-e9e3c8934f6e9b47.skydrive.live.com/self.aspx/Papers/Top%2010%20algorithms%20in%20data%20mining.pdf

吴信东--数据挖掘top10算法相关推荐

  1. 吴信东:数据挖掘算法的经典与现代

    2020-06-08 22:10:23 作者 | 蒋宝尚 编辑 | 丛 末 6月6日,中国计算机学会(CCF)主办的中国计算机学会青年精英大会(CCF YEF)在线上举行,在"经典流传的机器 ...

  2. 为什么数据中台如此重要?明略科技吴信东:智能时代企业核心竞争力之源 | MEET2020...

    十三 整理自 吴信东发言  量子位 报道 | 公众号 QbitAI 中台很重要,数据中台格外重要. 数字化转型无疑成了当下一个不可阻挡的大浪潮.而在今年,中台这两个字随着阿里巴巴.腾讯.华为等巨头的战 ...

  3. 数据挖掘Apriori算法

    数据挖掘Apriori算法 数据挖掘(Data Mining)就是从大量的.不完全的.有噪声的.模糊的.随机的实际应用数据中,提取隐含在其中的.人们事先不知道的.但又是潜在有用的信息和知识的过程.挖掘 ...

  4. 总奖池31万!智能零售柜商品识别,“信也科技杯”算法大赛启动

    铁汁们!它回来啦!! 第六届信也科技杯心动登陆 六岁,可见证一个孩子从稚嫩期步入学龄期:六年,可陪伴信也魔镜杯变身信也科技杯,漫漫岁月,信也为技术发烧友们提供交流平台的初心至此如一. 2021年,第六 ...

  5. 《BI那点儿事》数据挖掘各类算法——准确性验证

    <BI那点儿事>数据挖掘各类算法--准确性验证 原文:<BI那点儿事>数据挖掘各类算法--准确性验证 准确性验证示例1:--基于三国志11数据库 数据准备: 挖掘模型: 依次为 ...

  6. 数据挖掘——时间序列算法之ARCH模型

    数据挖掘--时间序列算法之ARCH模型 先占个坑 1.平滑法 2.趋势拟合法 3.组合模型 4.AR模型 5.MA模型 6.ARMA模型 7.ARIMA模型 8.ARCH模型 9.GARCH模型及其衍 ...

  7. 数据挖掘神经网络算法,人工神经网络分析方法

    大数据分析方法分哪些类 本文主要讲述数据挖掘分析领域中,最常用的四种数据分析方法:描述型分析.诊断型分析.预测型分析和指令型分析. 当刚涉足数据挖掘分析领域的分析师被问及,数据挖掘分析人员最重要的能力 ...

  8. 数据挖掘分类算法的学习总结

    一.中文摘要 大数据时代的我们每时每刻都在产生海量数据,如何快速准确获取其中有价值的数据一直是亟待解决的问题.数据挖掘技术的应运而生为该问题提供了解决手段,作为数据挖掘核心内容之一的分类算法同样发挥了 ...

  9. 数据挖掘——时间序列算法之MA模型

    数据挖掘--时间序列算法之MA模型 1.平滑法 2.趋势拟合法 3.组合模型 4.AR模型 5.MA模型 6.ARMA模型 7.ARIMA模型 8.ARCH模型 9.GARCH模型及其衍生模型 前一篇 ...

最新文章

  1. 【OkHttp】OkHttp 源码分析 ( 网络框架封装 | OkHttp 4 迁移 | OkHttp 建造者模式 )
  2. Mastercam X9中文版
  3. HTTP_请求消息_请求行
  4. java自动随机字符_java随机字符生成工具
  5. MHA命令系统介绍--masterha_manager
  6. inno setup 中文乱码问题_解决Inno Setup制作中文安装包在非中文系统上显示乱码的问题...
  7. iOS应用性能调优建议
  8. python接口自动化(二十六)--批量执行用例 discover(详解)
  9. yarn-site.xml相关配置参数
  10. 深入了解Spring的@Scope注解中作用域代理proxyMode属性的实现
  11. 解决VC2013运行窗口快速闪现问题
  12. FileHandler文件处理
  13. 【雅思大作文考官范文】——第十五篇:'high salaries' essay
  14. Facebook币Libra学习-6.发行属于自己的代币Token案例(含源码)
  15. js 格式化prettier配置_使Prettier一键格式化WXSS
  16. 考试系统设计oracle,在线考试系统的设计与实现|毕业设计源代码|论文开题报告|Oracle...
  17. python乘车费用 青少年编程电子学会python编程等级考试二级真题解析2020年6月
  18. 《春田花花同学会》--做OL的好处
  19. Apache Thrift 官方JAVA教程
  20. 300000000元!短融网获C轮融资,CEO王坤透露了几点信息

热门文章

  1. 《雷达系统设计MATLAB仿真》学习
  2. 机房对决(双人小游戏)
  3. 密封槽设计标准_密封系统设计规范
  4. 微信小程序识别当前小程序的版本,开发版、体验版、线上版(附源码)
  5. 闪电恢复(系统数据快速恢复软件) 软件介绍及软件使用特性
  6. [作业记录]——CASS实体编码
  7. 使用Java编写Palm OS程序的解决方案
  8. 程序员命名必备网站|变量命名
  9. 大一计算机基础实用教程答案第二章,计算机基础实用教程(课件)第2章.ppt
  10. 在高并发的情况下,利用redis来处理库存超卖和遗留问题