最新一期的 KDnuggets 调查展示了一份数据科学家使用度最高的算法列表,这份列表中包含了很多惊喜,包括最学术的算法和面向产业化的算法。

哪些方法/算法是您在过去 12 个月中运用到一个实际的数据科学相关的应用程序中的?

这是基于 844 个投票者的结果

排名前十的算法以及他们的投票者的比例分布如下:

图 1 :数据科学家使用度最高的 10 大算法

文末有全部算法的集合列表

每个受访者平均使用 8.1 个算法,这相比于 2011 的相似调查显示的结果有了巨大的增长

与 2011 年关于数据分析/数据挖掘的调查相比,我们注意到最常用的方法仍然是回归、聚类、决策树/Rules 和可视化。相对来说最大的增长是由 (pct2016 /pct2011 – 1) 测定的以下算法:

1)Boosting,从 2011 年的 23.5% 至 2016 年的 32.8%,同比增长 40%

2)文本挖掘,从 2011 年的 27.7% 至 2016 年的 35.9%,同比增长 30%

3)可视化,从 2011 年的 38.3% 至 2016 年的 48.7%,同比增长 27%

4)时间序列/序列分析,从 2011 年的 29.6% 至 2016 年的 37.0%,同比增长 25%

5)异常/偏差检测,从 2011 年的 16.4% 至 2016 年的 19.5%,同比增长 19%

6)集成方法,从 2011 年的 28.3%至 2016 年的 33.6%,同比增长 19%

7)支持向量机,从 2011 年的 28.6% 至 2016 年的 33.6%,同比增长 18%

8)回归,从 2011 年的 57.9% 至 2016 年的 67.1%,同比增长 16%

最受欢迎算法在 2016 年的调查中有了新的上榜名单:

1)K-近邻,46%

2)主成分分析,43%

3)随机森林,38%

4)优化,24%

5)神经网络 – 深度学习,19%

6)奇异值分解,16%

最大幅下降的有:

1)关联规则,从 2011 年的 28.6% 至 2016 年的 15.3%,同比下降 47%

2)隆起造型,从 2011 年的 4.8% 至 2016 年的 3.1%,同比下降 36%

3)因素分析,从 2011 年的 18.6% 至 2016 年的 14.2%,同比下降 24%

4)生存分析,从 2011 年的 9.3% 至 2016 年的 7.9%,同比下降 15%

下表显示了不同的算法类型的使用:监督算法、无监督算法、元算法,以及职业类型决定的对算法的使用。我们排除 NA(4.5%)和其他(3%)的职业类型。

表 1:根据职业类型显示的不同算法使用度

我们注意到,几乎每个人都使用监督学习算法。政府和产业业数据科学家比学生和学术研究人员使用更多不同类型的算法,而产业数据科学家们更倾向于使用元算法。接下来,我们根据职业类型分析了前 10 名的算法+深度学习使用情况。

表 2:根据职业类型分类的 10 大算法+深度学习使用情况

为了更明显的看到差异,我们计算了具体职业分类相比于平均算法使用度的一个算法偏差,即偏差(ALG,类型)=使用(ALG,类型)/使用(ALG,所有的)

图 2:职业对算法的使用偏好

我们注意到,产业数据科学家们更倾向于使用回归、可视化、统计、随机森林和时间序列。政府/非营利更倾向于使用可视化、主成分分析和时间序列。学术研究人员更倾向于使用主成分分析和深度学习。学生普遍使用更少的算法,但多为文本挖掘和深度学习。

接下来,我们看看某一具体地域的参与度,表示整体的 KDnuggets 的用户:

美国/加拿大,40%

欧洲,32%

亚洲,18%

拉丁美洲,5%

非洲/中东,3.4%

澳洲/新西兰,2.2%

由于在 2011 年的调查中,我们将产业/政府分在了一组,而将学术研究/学生分在了第二组,并计算了算法对于业界/政府的亲切度:

因此亲切度为 0 的算法表示它在产业/政府和学术研究人员或学生之间的使用情况对等。越高 IG 亲切度表示算法越被产业界普遍使用,反之越接近「学术」。

最「产业」的算法是:

异常检测,1.61

生存分析,1.39

因子分析,0.83

时间序列/序列,0.69

关联规则,0.5

而 uplifting modeling 又是最「产业的算法」,令人惊讶的发现是,它的使用率极低 – 只有 3.1% – 是本次调查的算法中最低的。

最学术的算法是:

常规神经网络,-0.35

朴素贝叶斯,-0.35

支持向量机,-0.24

深度学习,-0.19

EM,-0.17

下图显示了所有的算法及其产业/学术亲切度。

图 3:KDnuggets 投票:最常被数据科学家使用的算法:产业界 VS 学术界

下表有关于算法的细节、两次调查中使用算法的比例、以及像上面解释的产业亲切度。

接下来的图表展示了算法的细节,按列

N:根据使用度排名

算法:算法名称,

类型:S – 监督,U – 无监督,M – 元,Z – 其他,

在 2016 年调查中使用这种算法的调查者比例

在 2011 年调查中使用这种算法的调查者比例

变动(%2016 年/2011% – 1),

产业亲切度(如上所述)



转载于:https://www.cnblogs.com/hark0623/p/5918570.html

数据科学家最常用的十种算法(我准备拿这个当成学习参考)相关推荐

  1. 数据科学家最常用的十种算法

    数据科学家最常用的十种算法 数据科学家最常用的十种算法 来源:数据挖掘 编辑:Gemini 最新一期的 KDnuggets 调查展示了一份数据科学家使用度最高的算法列表,这份列表中包含了很多惊喜,包括 ...

  2. 数据科学家最常用的十种算法和方法

    最近KDnuggets针对数据科学家最常使用的算法作了一个调查,有一些意外的发现,包括最学术向的算法和最产业向的算法. 下面是调查结果,总调查人数是 844 人. 数据科学家最常用的Top 10种算法 ...

  3. 数据科学家最常用的10种算法

    最新的KDnuggets调查统计了数据科学家们实际工作中最常使用的算法,在大多数学术和产业界,都有惊人发现哦! 根据Gregory Piatetsky, KDnuggets,最新的调查问题是:在最近的 ...

  4. 常用的十种算法:二分查找,分治,动态规划,KMP

    常用的十种算法 一.二分查找算法(非递归) 1.1 二分查找算法(非递归)介绍 前面我们讲过了二分查找算法,是使用递归的方式,下面我们讲解二分查找算法的非递归方式 二分查找法只适用于从有序的数列中进行 ...

  5. 对数据科学家来说最重要的算法和统计模型

    摘要:本文提供了工业中常用的关键算法和统计技术的概要,以及与这些技术相关的短缺资源. 作为一个在这个行业已经好几年的数据科学家,在LinkedIn和Quora上,我经常接触一些学生或者想转行的人,帮助 ...

  6. (十五):常用的十种算法(下)

    1.普里姆算法 1.1普利姆算法应用场景 有胜利乡有7个村庄(A, B, C, D, E, F, G) ,现在需要修路把7个村庄连通 各个村庄的距离用边线表示(权) ,比如 A – B 距离 5公里 ...

  7. 数据结构与算法(程序员常用的十种算法:上1~5)

    一:二分查找 二分查找算法(非递归)介绍 (1)前面我们讲过了二分查找算法,是使用递归的方式,下面我们讲解二分查找算法的非递归方法 (2)二分查找法只适用于从有序的数列中进行查找(比如数字和字母等), ...

  8. 常用的十种算法--克鲁斯卡尔算法

    1.克鲁斯卡尔算法应用场景: 使用克鲁斯卡尔算法生成最小生成树. 2.克鲁斯卡尔算法介绍:         克鲁斯卡尔算法的核心思想是:在带权连通图中,不断地在边集合中找到最小的边,如果该边满足得到最 ...

  9. 数据科学家之路 chapter3 --- 统计学知识(《赤裸裸的统计学》学习笔记)

    近日在做机器学习题目的时候发现统计对于机器学习的重要性,加上老师说以后可以从计算机转统计.于是这里决定新开一个分类,专门记录关于统计的知识.希望一来能够辅助机器学习中对于数据的认识,二来也可以为读研做 ...

  10. 想要成为数据科学家?知道这11种机器学习算法吗?

    摘要: 想要成为数据科学家?知道这十几种机器学习算法吗?赶快来了解一下吧,文中附各种算法的资源地址! 机器学习从业者都有不同的个性,虽然其中一些人会说"我是X方面的专家,X可以训练任何类型的 ...

最新文章

  1. 物联网安全领域都有哪些机会?来看看这19家公司都是怎么玩的
  2. 真相揭露:BCH开发活跃度比(Bitcoin Core)BCE低吗?
  3. 算法------------数组----------------两个数组的交集 II
  4. python3.7安装turtle步骤-Python3.6安装turtle模块
  5. Sublime Text 2 中怎样查找scope的名称
  6. 认识计算机ppt封面,认识计算机.ppt
  7. mysql 存储引擎接口_MySQL 的基础一(连接池, SQL接口, 查询解析器, 查询优化器, 存储引擎接口, 执行器,)...
  8. (57)Verilog HDL选择运算符:?
  9. ubuntu下载gmt_科学网—Linux/Ubuntu安装地学制图软件GMT6.0.0 - 杨家乐的博文
  10. 计算机博士复试英语自我介绍,博士生复试自我介绍的英文
  11. [HTML/HTML5]3 页面结构
  12. Unity 2D Touch Movement
  13. 发布与安装Github Packages
  14. Redis命令之scan、sscan、hscan、zcan
  15. 对联广告代码效果大全
  16. 在IDEA中如何使用eclipse快捷键
  17. 解决springboot上传文件报错:The field XXX exceeds its maximum permitted size of 1048576 bytes
  18. Java实现音频格式转换 WAV—mp3,可使音频压缩
  19. 52函数零点或方程根的个数讨论
  20. 没有备份iPhone误删通讯录怎么恢复

热门文章

  1. 如何格式化搭载 Apple 芯片的 Mac?
  2. 磁盘已满,如何从 Mac 中删除大文件?
  3. 如何批量更改Mac视频帧速率
  4. iClock时间菜单功能设置
  5. 分布式服务框架-原理与实践:15---服务降级-学习笔记
  6. spring mvc 异常处理手动回滚 SQL log不回滚
  7. 源码nginx+php
  8. 空间apiLinux系统调用及用户编程接口(API)学习
  9. jquery基础使用!
  10. 简单的Hibernate入门简介