最近KDnuggets针对数据科学家最常使用的算法作了一个调查,有一些意外的发现,包括最学术向的算法和最产业向的算法。

下面是调查结果,总调查人数是 844 人。

数据科学家最常用的Top 10种算法和方法,以及投票比例:

表1:数据科学家最常用的Top 10算法&方法。所有算法和方法的列表在文末。

说明:这个投票的本意是找出数据科学家最常用的工具,但“工具”这个词含义不明确,所以为了简便我最初把这个表成为top 10“算法”。当然,正如有读者指出的,“统计学”或“可视化”以及其他几个都不是算法,更好的描述应该是“方法”。所以我把这个表更名为Top 10算法和方法。

投票者平均使用的算法/方法数是8.1中,比2011年的类似调查增加了很多。

在2011年的调查“数据科学/数据挖掘的常用算法”中,我们提到最常用的方法是回归、聚类、决策树/决策规则,以及可视化。两次调查中投票数增加最多的是:

提升方法,2016年票数占32.8%,2011年占23.5%,票数增加40%

文本挖掘,从2011年的27.7%到2016年的35.9%,票数增加30%

可视化,从2011年的38.3%到2016年的48.7%,票数增加27%

时间序列/序列分析,从2011年的29.6%到2016年的37.0%,票数增25%

异常/偏差检测,从2011年的16.4%到2016年的19.5%,票数增加 19%

集成方法,从2011年的28.3%到2016年的33.6%,票数增加19%

SVM,从2011年的28.6%到2016年的33.6%,票数增加18%

回归,从2011年的57.9%到2016年的67.1%,票数增加16%

2016年新增的回答有:

K-NN,占比46%

PCA,占比43%

随机森林,占比38%

优化,占比24%

神经网络 –深度学习,占比19%

奇异值分解,占比16%

投票数减少最多的有:

关联规则,从2011年的28.6%到2016年的15.3%,减少了47%

增量建模,从4.8%到3.1%,减少了36% (这个让人吃惊)

因素分析,从18.6%到14.2%,减少了24%

生存分析,从9.3%到7.9%,减少了15%

下面的表格表示不同算法类型的应用:监督、无监督、元,及其他,以及投票者职业类型的占比。在职业类型中,我们排除了“未回答”(4.5%)和“其他”(3%)。

  我们发现,几乎所有人都使用监督式学习算法。

政府和产业数据科学家比学生或学术研究人员使用更多不同类型的算法。

产业数据科学家更喜欢元算法。

接下来,我们分析了不同职业人士最常用的10中算法 深度学习:

为了让结果更清晰,我们计算了职业类型和平均算法使用的偏差,即偏差(ALG,类型)=使用(ALG,类型)/使用(ALG,所有)。

  图2:按职业类型分的算法使用偏差

我们发现,产业数据科学家更喜欢用回归、可视化、统计、随机森林和时间序列。政府/非营利机构用得更多的是可视化、PCA和时间序列。学术研究者更常用的是PCA和深度学习。学生普遍上使用的算法较少,常用的是文本挖掘和深度学习。

接下来我们分析了能代表 KDnuggets 整体用户的具体地区参与人数:

投票参与者的地区分布:

美国/加拿大,40%

欧洲,32%

亚洲,18%

拉丁美洲,5.0%

非洲/中东,3.4%

澳大利亚/新西兰,2.2%

在2011年的投票中,我们把产业/政府和学术研究者/学生分别合并成一个组,并用以下公式计算产业/政府的算法“亲和度”:

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)

——————————- – 1

N(Ind_Gov) / N(Aca_Stu)

因此,亲和度为0的算法表示它在产业/政府和学术研究者或学生中的使用情况一致。IG值越高,表示这个算法越“产业向”,越低,表示算法越“学术向”。

2011年的调查中,最“产业向的算法”是:

增量建模,2.01

异常检测,1.61

生存分析,1.39

因素分析,0.83

时间序列/序列,0.69

关联规则,0.5

在最新的调查中,增量建模(uplift modeling)是最“产业向的算法”,令人惊奇的发现是使用它的人非常少——只有3.1%,是这个调查中得票数最少的算法。

最“学术向的算法”是:

常规神经网络,-0.35

朴素贝叶斯,-0.35

支持向量机(SVM),-0.24

深度学习,-0.19

EM, -0.17

下面的图表列出了所有的算法和它们的产业/学术亲和度。

  图3:数据科学家最常用的算法:产业 vs 学术

下面的表格列出了所有算法的细节,%表示两次调查中该算法的得票数占比,以及比重的变化(%2016/%2011 -1)。

  表3:KDnuggets 2016调查:数据科学家使用的算法

N:按投票数的排序

Algorithm:算法名称

Type: S – 监督(Supervised), U – 无监督(Unsupervised), M – 元(Meta), Z – 其他

2016 % :2016年该算法的得票率

2011 % :2011年该算法的得票率

change (%2016 / %2011 – 1):得票率变化

Industry affinity:如上文解释。

本文转自d1net(转载)

数据科学家最常用的十种算法和方法相关推荐

  1. 数据科学家最常用的十种算法

    数据科学家最常用的十种算法 数据科学家最常用的十种算法 来源:数据挖掘 编辑:Gemini 最新一期的 KDnuggets 调查展示了一份数据科学家使用度最高的算法列表,这份列表中包含了很多惊喜,包括 ...

  2. 数据科学家最常用的10种算法

    最新的KDnuggets调查统计了数据科学家们实际工作中最常使用的算法,在大多数学术和产业界,都有惊人发现哦! 根据Gregory Piatetsky, KDnuggets,最新的调查问题是:在最近的 ...

  3. 常用的十种算法:二分查找,分治,动态规划,KMP

    常用的十种算法 一.二分查找算法(非递归) 1.1 二分查找算法(非递归)介绍 前面我们讲过了二分查找算法,是使用递归的方式,下面我们讲解二分查找算法的非递归方式 二分查找法只适用于从有序的数列中进行 ...

  4. 对数据科学家来说最重要的算法和统计模型

    摘要:本文提供了工业中常用的关键算法和统计技术的概要,以及与这些技术相关的短缺资源. 作为一个在这个行业已经好几年的数据科学家,在LinkedIn和Quora上,我经常接触一些学生或者想转行的人,帮助 ...

  5. (十五):常用的十种算法(下)

    1.普里姆算法 1.1普利姆算法应用场景 有胜利乡有7个村庄(A, B, C, D, E, F, G) ,现在需要修路把7个村庄连通 各个村庄的距离用边线表示(权) ,比如 A – B 距离 5公里 ...

  6. 数据结构与算法(程序员常用的十种算法:上1~5)

    一:二分查找 二分查找算法(非递归)介绍 (1)前面我们讲过了二分查找算法,是使用递归的方式,下面我们讲解二分查找算法的非递归方法 (2)二分查找法只适用于从有序的数列中进行查找(比如数字和字母等), ...

  7. 常用的十种算法--克鲁斯卡尔算法

    1.克鲁斯卡尔算法应用场景: 使用克鲁斯卡尔算法生成最小生成树. 2.克鲁斯卡尔算法介绍:         克鲁斯卡尔算法的核心思想是:在带权连通图中,不断地在边集合中找到最小的边,如果该边满足得到最 ...

  8. 「数据科学家」必备的10种机器学习算法

    来源 | 雷克世界(ID:raicworld) 编译 | 嗯~是阿童木呀.KABUDA.EVA 可以说,机器学习从业者都是个性迥异的.虽然其中一些人会说"我是X方面的专家,X可以在任何类型的 ...

  9. 英国脑科学领域_来自英国A级算法崩溃的数据科学家的4课

    英国脑科学领域 In the UK, families, educators, and government officials are in an uproar about the effects ...

最新文章

  1. 境外 java 中文乱码_Java前后端交互中文出现乱码??
  2. [ 搞笑 ] 疯狂的石头与张柏芝
  3. python怎么输入程序代码_学习用 Thonny 写代码: 一个面向初学者的Python IDE
  4. Arduino笔记-解决上传时出现avrdude: stk500_getsync() attempt 1 of 10: not in sync: resp=0x00问题
  5. iPhone 12可能还有4G版,售价香到不行!
  6. 关于jquery的$(document).on()事件多次执行的问题
  7. ios13.4.1续航怎么样?
  8. HUE与HDFS的集成
  9. [转载] 【Python】Python3 List copy()方法
  10. C#属性默认值设置(model实体类)
  11. 【PAT】A-1076:Forwards on Weibo(有向图的BFS遍历)
  12. android开发者模式自动打开位置touch信息
  13. 自然辩证法小论文选题_★自然辩证法论文题目_自然辩证法毕业论文题目大全_自然辩证法论文选题参考...
  14. C语言日期计算器vs2022
  15. 用python制作weblogo/SeqLogo/序列保守性分析图
  16. 练琴时悟出的动态规划算法,帮我通关了《辐射4》
  17. [蓝桥杯]连号区间数[题目详解]
  18. 五款双11抢疯了的高性能蓝牙耳机,我手里的AIrPods真的不香了~
  19. JavaMail怎样获取收件箱,发件箱,垃圾箱等等的全名
  20. 重磅推荐:一套开源的网校系统,无论是自建网校还是接副业都很方便!

热门文章

  1. mysql语句事务回滚_mysql语句,事务处理回滚的问题。
  2. 参考文献的序号怎么对齐_学术论文发表写作格式、具体要求和参考文献的要求模板...
  3. 事件循环中的宏任务和微任务执行顺序
  4. 怎么终止linux的次序运行程序,linux – 如何按特定顺序停止systemd服务
  5. 对Redis单线程的一些看法
  6. vb按热键启动应用程序
  7. 在VB6中保存单色(1Bit)位图(VB6代码)
  8. 心情随笔(六):金秋十月备考之路亦别有一番风味
  9. PyTorch 1.0稳定版正式发布,并向开发者提供免费AI课程
  10. 你敲键盘的声音,出卖了你 | 附开源代码