179种分类器大评测

300包薯片,我们吃完了!
179种分类器,我们测完了!

资料来源

2014年名为

Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?

的文章中(截止目前,被引 823 次),研究人员对 17 个家族,179 个分类器,在 121 个数据集上的表现进行了评测!

上结果

分类器排名

第一是随机森林(Random Forest, RF)

使用 R 语言中 Caret 库实现,which achieves 94.1% of the maximum accuracy overcoming 90% in the 84.3% of the data sets. <- 这句话我咋没理顺…

突然觉得实验室弥漫的随机森林风似乎很清新…

虽然数据上是第一,但与第二并未表现出效果上的显著性差异(意思就是,第二和第一差不多)

第二是高斯核-支持向量机(SVM with Gaussian Kernel)

使用 C 语言中 LibSVM 库实现,which achieves 92.3% of the maximum accuracy.

当然还有一些模型也不错,显著优于其他的分类器,包括:

  1. SVM with polynomial kernels
  2. extreme learning machine with Gaussian kernel
  3. C5.0
  4. avNNet (a committee of multi-layer perceptrons implemented in R with the caret package)

家族排名

第一名,随机森林家族,前5里有3个该家族的

第二名:SVM家族,前10里有4个

第三名:神经网络家族,前20里有5个

第四名:Boosting家族,前20里有3个

图中,使用 Friedman rank 法评估每个家族中的算法性能(分越低越好),上半部分是每个家族的算法得分分布,下半部分是各家族中的最低分

局限性

有没有觉得,RF 那么好,那最近为啥火的是 deep learning ?难道 2014 年的时候 还有没 deep learning 算法?

实际上,测试范围虽然包括 121 个数据集,但全部取自于 UCI data base (哈?不知道 UCI ?看下一小节!),且不包括大型数据集,自然体现不出来深度学习的优势

深度学习相比RF、SVM等算法,主要优势体现在其性能可以随数据量的增加持续性上升,借一张吴恩达老师 DeepLearning.ai 课程第一门第一周的ppt

随着数据量的增大,传统算法的拟合能力限制于其模型本身,但神经网络可以通过不断扩展网络结构,持续提升数据拟合能力

于此同时,UCI 更多情况下被研究人员作为模拟任务的数据集使用,与现今研究中的真实任务还是具备一定差异性的,不能以偏概全

辩证考虑哦 ●0●

UCI Data Sets

UCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库,截止目前,有426个数据集,是一个常用的标准测试数据集

官网 About

The UCI Machine Learning Repository is a collection of databases, domain theories, and data generators that are used by the machine learning community for the empirical analysis of machine learning algorithms. The archive was created as an ftp archive in 1987 by David Aha and fellow graduate students at UC Irvine. Since that time, it has been widely used by students, educators, and researchers all over the world as a primary source of machine learning data sets. As an indication of the impact of the archive, it has been cited over 1000 times, making it one of the top 100 most cited “papers” in all of computer science. The current version of the web site was designed in 2007 by Arthur Asuncion and David Newman, and this project is in collaboration with Rexa.info at the University of Massachusetts Amherst. Funding support from the National Science Foundation is gratefully acknowledged.

附录:具体测评算法

详见论文 2.2 Classifiers,这里只罗列下分类器的家族和代表算法,剩余大多数算法都是某种经典算法的小变体

值得注意的是,很多算法都特别老(上个世纪的),选择使用时要慎重

Discriminant analysis (DA): 20 classifiers

  1. LDA, linear discriminant analysis
  2. SDA, shrinkage discriminant analysis
  3. QDA, quadratic discriminant analysis
  4. FDA, flexible discriminant analysis
  5. MDA, mixture discriminant analysis
  6. PDA, penalized discriminant analysis
  7. RDA, regularized discriminant analysis
  8. HDDA, high-dimensional discriminant analysis

Bayesian (BY) approaches: 6 classifiers

  1. NaiveBayes
  2. BayesNet

Neural networks (NNET): 21 classifiers

  1. RBF, radial basis functions neural network
  2. MLP, multi-layer perceptron
  3. avNNet, creates a committee of 5 MLPs
  4. PNN, probabilistic neural network

(确实没对比深度神经网络)

Support vector machines (SVM): 10 classifiers

  1. SVM,support vector machine
  2. 各种kernal(未来小组分享会讨论kernal的问题)、变体

Decision trees (DT): 14 classifiers

  1. rpart
  2. C5.0
  3. J48
  4. RandomTree
  5. DecisionStump, one-node decision tree

Rule-based methods (RL): 12 classifiers

  1. C5.0Rules, uses the same function C5.0 (in the C50 package) as classifiers C5.0Tree t, but creating a collection of rules instead of a classification tree.

Boosting (BST): 20 classifiers

  1. adaboost
  2. logitboost
  3. AdaBoostM1
  4. MultiBoostAB

Bagging (BAG): 24 classifiers

  1. bagging
  2. treebag
  3. ldaBag
  4. nbBag
  5. svmBag
  6. nnetBag

Random Forests (RF): 8 classifiers

  1. random forest

Other ensembles (OEN): 11 classifiers

Generalized Linear Models (GLM): 5 classifiers

Nearest neighbor methods (NN): 5 classifiers

  1. KNN

Partial least squares and principal component regression (PLSR): 6 classifiers

Logistic and multinomial regression (LMR): 3 classifiers

  1. Logistic

Multivariate adaptive regression splines (MARS): 2 classifiers

Other Methods (OM): 10 classifiers

以上

什么鬼,还有彩蛋??

300包薯片评测中,最好吃的薯片是 ——

Calbee IMO&MAME 青豆/昆布 !!!

可据说 Calbee 家的薯条三兄弟才真好吃?

别滑了… 真没了…

( ̄ε(# ̄) 

179种分类器大评测相关推荐

  1. (转).NET导出Excel的四种方法及评测

    .NET导出Excel的四种方法及评测 导出Excel是.NET的常见需求,开源社区.市场上,都提供了不少各式各样的Excel操作相关包.本文,我将使用NPOI.EPPlus.OpenXML.Aspo ...

  2. 人脸识别中常用的几种分类器

    人脸识别中常用的几种分类器 在人脸识别中有几种常用的分类器,一是最邻近分类器:二是线性分类器 (1)最邻近分类器 最近邻分类器是模式识别领域中最常用的分类方法之一,其直观简单,在通常的应用环境中非常有 ...

  3. 音乐翻唱软件测试初学者,音乐APP听歌识曲大评测,QQ音乐独家“翻唱识别”领跑...

    原标题:音乐APP听歌识曲大评测,QQ音乐独家"翻唱识别"领跑 不知道大家有没有遇到这样一种情况,看综艺时,突然听到一首很好听的歌曲,但是就是不知道歌名,在心里急得呀. 每每遇到这 ...

  4. ant design vue table 高度自适应_Vue组件库大评测 Element, iView, HeyUI, Ant Design Vue

    今天偶然的机会想了解下其他Vue相关的组件库,网上刚好有文章,顺便自己做一下笔记,算是资源整理吧 .好了,话不多说,直接开始: 组件库的选择对于前端开发有者至关重要的影响,而组件的丰富性以及健壮性是我 ...

  5. 把树分成森林 matlab,20170106RF_Matlab 随机森林指的是利用多棵树对样本进行训练并预测的一种分类器,包括两个方面:数据的随 269万源代码下载- www.pudn.com...

    文件名称: 20170106RF_Matlab下载  收藏√  [ 5  4  3  2  1 ] 开发工具: matlab 文件大小: 441 KB 上传时间: 2017-01-06 下载次数: 0 ...

  6. P,AP, MAP,MRR。几种分类器评价指标

    P,AP, MAP,MRR几种分类器评价指标 P准确率(Precision) AP(Average Precision):平均准确率--平均是对于不同的验证集的平均 MAP(Mean Average ...

  7. 喵喵机和咕咕机哪个好,打印效果大评测!喵喵机p2 VS咕咕机GT1

    喵喵机和咕咕机哪个好,打印效果大评测!喵喵机p2 VS咕咕机GT1 楼主之前是一个苦逼的高中生,刚刚经历过今年的高考.现在是一个游走在大学校园里面的斜杆小青年,上了自己最心仪的大学,也算功德圆满的告别 ...

  8. 大电流dcdc降压芯片20a_一种高效率大电流的DC-DC降压电源设计

    一种高效率大电流的 DC-DC 降压电源设计 胡玉松 [期刊名称] <信息通信> [年 ( 卷 ), 期] 2018(000)001 [摘要] 设计了一款宽输入电压.高效率.低纹波的直流 ...

  9. 瑞芯微推出RV1126性能/案例大评测

    瑞芯微推出RV1126性能/案例大评测 目录 案例1:面部识别 案例2:图像分割 案例3:目标检测 一.车载录像性能提升一倍,支持8路1080p视频录像 二.内置2T独立NPU,AI效率更高 三.配备 ...

最新文章

  1. HDFS Java 客户端使用(Windows开发环境)
  2. 有了它,AI甚至可以让你知道对方是否真的爱你?
  3. 给GPT-2加上“人类偏好”补丁,它说的话就越来越有人情味了丨代码已开源
  4. 树莓派 —— USB 摄像头简单测试 (拍照 视频)
  5. Hibernate查询缓存
  6. php 对比两个压缩包内容,php实现的zip文件内容比较类
  7. 向程序发送命令失败_java程序员进阶:Redis分布式技术问题集锦
  8. git本地安装配置与基础概念
  9. 通用数据链接(UDL)的用法
  10. 照片放大不清晰怎么处理?用嗨格式图片无损放大器
  11. 打印预览和实际的打印不一致问题
  12. Java转换图片格式 tif 转 jpg
  13. albedo diffuse specular
  14. opcode加密php代码,总结Opcode缓存和PHP代码的加密
  15. 数年沉寂之后,VR/AR产业开始起飞!
  16. python PIL将图片转换成九宫格拼图样式
  17. 【职业女性着装全攻略】_职业女性应该怎样着装
  18. 优秀Java书单整理
  19. 如何重新设置苹果id密码_苹果ID密码忘记应该怎么做
  20. SHL、SHR指令的区别

热门文章

  1. append方法实现字符串的拼接
  2. 谈谈HBuilder以及HTML5+
  3. freertos学习02-队列 stream buffer message buffer
  4. 计算机等级考试中的b是什么意思,专业等级B-是什么意思?
  5. python数据处理——标准化处理
  6. 【哲学】康德的空间和时间理论—罗素 读书笔记
  7. Avi与Kubernetes集成
  8. docker 指定特定出口 ip
  9. 在cmd中用PING命令时,出现'Ping' 不是内部或外部命令,也不是可运行的程序或批处理文件。...
  10. Android studio中打包生成release版本时提示 A problem occurred evaluating root project ‘My‘出错问题的解决方法