原文地址:http://blog.sina.com.cn/s/blog_7ad48fee0102vb9c.html


摘要

JMLR杂志上最近有一篇论文,作者比较了179种不同的分类学习方法(分类学习算法)在121个数据集上的性能,发现Random Forest(随机森林)和SVM(支持向量机)分类准确率最高,在大多数情况下超过其他方法。本文针对“大数据分析到底需要多少种工具?”这一问题展开讨论,总结机器学习领域多年来积累的经验规律,继而导出大数据分析应该采取的策略。

1.分类方法大比武

大数据分析主要依靠机器学习和大规模计算。机器学习包括监督学习、非监督学习、强化学习等,而监督学习又包括分类学习、回归学习、排序学习、匹配学习等(见图1)。分类是最常见的机器学习应用问题,比如垃圾邮件过滤、人脸检测、用户画像、文本情感分析、网页归类等,本质上都是分类问题。分类学习也是机器学习领域,研究最彻底、使用最广泛的一个分支。

图1  机器学习分类体系

最近、Fernández-Delgado等人在JMLR(Journal of Machine Learning Research,机器学习顶级期刊)杂志发表了一篇有趣的论文。他们让179种不同的分类学习方法(分类学习算法)在UCI 121个数据集上进行了“大比武”(UCI是机器学习公用数据集,每个数据集的规模都不大)。结果发现Random Forest(随机森林)和SVM(支持向量机)名列第一、第二名,但两者差异不大。在84.3%的数据上、Random Forest压倒了其它90%的方法。也就是说,在大多数情况下,只用Random Forest 或 SVM事情就搞定了。

2.几点经验总结

大数据分析到底需要多少种机器学习的方法呢?围绕着这个问题,我们看一下机器学习领域多年得出的一些经验规律。

l  大数据分析性能的好坏,也就是说机器学习预测的准确率,与使用的学习算法、问题的性质、数据集的特性包括数据规模、数据特征等都有关系。

l  一般地,Ensemble方法包括Random Forest和AdaBoost、SVM、Logistic Regression 分类准确率最高。

l  没有一种方法可以“包打天下”。Random Forest、SVM等方法一般性能最好,但不是在什么条件下性能都最好。

l  不同的方法,当数据规模小的时候,性能往往有较大差异,但当数据规模增大时,性能都会逐渐提升且差异逐渐减小。也就是说,在大数据条件下,什么方法都能work的不错。参见图2中Blaco & Brill的实验结果。

l  对于简单问题,Random Forest、SVM等方法基本可行,但是对于复杂问题,比如语音识别、图像识别,最近流行的深度学习方法往往效果更好。深度学习本质是复杂模型学习,是今后研究的重点。

l  在实际应用中,要提高分类的准确率,选择特征比选择算法更重要。好的特征会带来更好的分类结果,而好的特征的提取需要对问题的深入理解。

图2  不同机器学习方法在数据集增大时的学习曲线。

3.应采取的大数据分析策略

建立大数据分析平台时,选择实现若干种有代表性的方法即可。当然,不仅要考虑预测的准确率,还有考虑学习效率、开发成本、模型可读性等其他因素。大数据分析平台固然重要,同时需要有一批能够深入理解应用问题,自如使用分析工具的工程师和分析人员

只有善工利器,大数据分析才能真正发挥威力。

参考文献

[1]  Manuel Fernández-Delgado, Eva Cernadas, Senén Barro, Dinani Amorim; Do we Need Hundreds of Classifiers to Solve Real World Classification Problems? Journal of Machine Learning Research 15(Oct):3133−3181, 2014.

[2]  Banko, Michele, and Eric Brill. "Scaling to very very large corpora for natural language disambiguation." Proceedings of the 39th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2001.


转载于:https://www.cnblogs.com/cyn-bob/p/7923122.html

【2017.11.29 周三 转载之李航博士的文章:大数据分析到底需要多少种工具?】...相关推荐

  1. 制作首页的显示列表(2017.11.29)

    1. 在首页添加显示问答的列表,并定义好相应的样式. 无序列表 <ul > <li>Coffee</li> <li>Tea</li> < ...

  2. 【297天】我爱刷题系列056(2017.11.29)

    叨叨两句 搞定 牛客网--java专项练习036 1 抽象类方法的访问权限默认都是public.( ) 正确答案: B 你的答案: A (错误) 正确 错误 关于抽象类 JDK 1.8以前,抽象类的方 ...

  3. 11.28 限定某个目录禁止解析php 11.29 限制user_agent 11.30/11.31 php相关配置

    - 11.28 限定某个目录禁止解析php - 11.29 限制user_agent - 11.30/11.31 php相关配置 - 扩展 - apache开启压缩 http://ask.apelea ...

  4. 「CodePlus 2017 11 月赛」可做题

    题目描述 qmqmqm 希望给 sublinekelzrip 出一道可做题.于是他想到了这么一道题目:给一个长度为n的非负整数序列ai​​,你需要计算其异或前缀和bi,满足条件b1=a1​​,bi=b ...

  5. 11.29 广州国际设计周

    11.29 广州国际设计周 转载于:https://www.cnblogs.com/liugod/archive/2007/11/16/961534.html

  6. [CodePlus 2017 11月赛]晨跑 题解(辗转相除法求GCD)

    [CodePlus 2017 11月赛]晨跑 Description "无体育,不清华"."每天锻炼一小时,健康工作五十年,幸福生活一辈子".在清华,体育运动绝 ...

  7. 11.29晚 心情 晴 既然选择了Linux这条路就要坚持走下去

    11.29 命令: 第一节: 1.touch创建文件 实例 touch testfile 2.cat主要有三大功能: 一次显示整个文件 cat filename 从键盘创建一个文件 cat > ...

  8. 2017/12/29

    2019独角兽企业重金招聘Python工程师标准>>> 2017/12/29 Firday weather: light rain ! 1.需求: 写一个脚本实现如下功能: 输入一个 ...

  9. 死性不改【17Fi】ISO9000 Win7x64专业版、WS2008r2企业版GHO下载 2017.06.29

    死性不改[17Fi]ISO9000 Win7x64专业版.WS2008r2企业版GHO下载 2017.06.29 2017年06月29日 系统分享 评论 2 条 阅读 2,341 次 最新版本:17F ...

最新文章

  1. XML 与DataSet 对象的关系
  2. 设置session失效的几种方法
  3. 在宝塔环境下安装VUE 及webpack
  4. K8s 1.18 正式 release | 云原生生态周报 Vol. 43
  5. 5G为何采纳华为力挺的Polar码?一个通信工程师的大实话
  6. 可以装linux的路由器,[转载]linux路由器Quagga的配置(一):安装
  7. idea 连接云mysql_IDEA开发环境下配置JDBC连接MySQL
  8. 用GDB调试PHP扩展
  9. mysql 分布式锁_【分布式锁的演化】分布式锁居然还能用MySQL?
  10. Elsevier LaTeX 模板
  11. 用户权限管理模块的数据库设计
  12. 京瓷打印机p5026cdn_京瓷p5026cdn驱动下载-京瓷p5026cdn打印机驱动v2.0.1421 官方版 - 极光下载站...
  13. 手机工商银行显示服务器安装不了,工商银行网上银行助手为什么不能安装 工行网银助手不能安装...
  14. 4-20mA电流光纤中继器的原理和应用
  15. java根据逗号拆分_Excel拆分单元格文本,一列变多列,你学会了吗?
  16. 有关Android插件化思考
  17. 参考线--深入了解字体
  18. 企业微信链接适配安卓ios移动端问题汇总
  19. aria2c: command not found
  20. 【无标题】类模板详解\n类模板的定义及实例化\ntemplate\u003Cclass 模板参数>\nclass 类名 {\n // 类定义\n};\n\ntemplate\u003Ctypen

热门文章

  1. 什么是 lnmp 实现原理。
  2. .Net Core 部署到Ubuntu 16.04 中的步骤
  3. Swift之父Chris Lattner将从Apple离职,加入特斯拉
  4. 一个祸害我很久的东东——事件过滤器之按键触发
  5. Java中的继承和接口
  6. 第二十一章流 14临时文件
  7. wordpress--SEO们的福音
  8. Android编译笔记之五
  9. python爬取正确但不出文件_[求助] Python 爬虫爬取豆瓣_请不要害羞,语法没有报错,但是最终没有得到图片,请各位大神帮我看看,到底哪里出现了问题??急求...
  10. LVS+Keepalive 实现负载均衡高可用集群