作者 |  神经小兮  责编 | 张文

头图 | CSDN 下载自视觉中国

来源 | HyperAI超神经(ID:HyperAI)

数据分析竞赛平台 kaggle,近期针对平台用户进行了一项调查,涉及从业者基本信息、薪资水平、工作经验等多个维度。

对 20036 名 Kaggle 用户的反馈进行数据清洗后,kaggle 最终针对 13%(2675 名)的受访者编制了这份报告。这些受访者都是在职的数据科学家,或其他支持数据科学和机器学习的职位。

kaggle 历时一个月,完成了此项调查报告

目前,最近调查报告已出炉。从这个报告中,我们可一览当前机器学习与数据科学从业者的全貌,以及相关企业在这方面的人员雇佣、资金投入状况等,一窥该行业最新发展趋势。

注:在本次调查中,并未出现中国的数据科学家相关数据,经过研究发现,kaggle 在调查问卷的参与规则中,有一条写道:

若想获得该问卷调查所设奖项,您必须满足:

  1. 18 岁以上或所在国规定的公民年龄;

  2. 本人不是亚美尼亚、古巴、伊朗叙利亚、朝鲜、苏丹国民;

  3. 不是受美国出口管制或制裁的个人或实体的代表。

明确指出以上国家、实体代表及个人没有评奖资格

自 2018 年至今,美国已将 200 多家中国企业以及 13 所高校,列入出口管制或制裁的实体清单,我们将这些高校名单,以及部分科技、人工智能领域企业名单整理如下:

企业 高校
北京计算科学研究中心 北京航空航天大学
北京云计算中心 中国人民大学
中芯国际 国防科技大学
大华科技 湖南大学
海康威视 哈尔滨工业大学
科大讯飞 哈尔滨工程大学
旷视科技 西北工业大学
商汤科技 西安交通大学
依图科技 电子科技大学
云从科技 四川大学
云天励飞技术有限公司 同济大学
东方网力科技有限公司 广东工业大学
北京达闼科技(CloudMinds) 南昌大学
奇虎 360  科技有限公司
厦门美亚柏科信息有限公司
颐信科技
华为 38  家子公司
中国电子科技集团公司第三十研究所
中国电子科技集团公司第七研究所
无锡江南计算技术研究所

也就是说,只要你所在的学校、公司上了实体清单,问卷可以填,但是不能参与奖项的评审。虽然没有进一步的背景调查和声明,但 Kaggle 的确指名道姓地婉拒了不少国人参与。

报告精炼版:数据科学er的群体画像

1.1 性别、年龄与学历分布 

  • 该领域从业人员男多女少,男女比例约为 5:1;

  • 35 岁是个分水岭,大部分受访者小于 35 岁;

  • 一半以上的受访者拥有研究生学位。

1.2 教育背景和工作经验 

  • 大多数数据科学家走出校门后,仍坚持学习新技术;

  • 大多数数据科学家编程时间少于 10 年;

  • 一半以上的数据科学家,拥有机器学习的经验不足三年;

  • 居住美国的数据科学家的工作薪水,明显比其他国家同行更多。

1.3 技术相关调查 

  • 相比 2019 年,使用云计算的数据科学家更多了;

  • Scikit-Learn 是使用最多的机器学习工具,有 4/5 的数据科学家在用;

  • Tableau 和 PowerBI 是最流行的商业智能工具。

男性为主,人均硕士,印度霸榜

2.1 性别:超八成为男性。

数据科学家从业者仍然存在巨大的性别比例失衡,超过八成都是男性。

去年调查显示,84% 为男性,今年这一比例变化极小

2.2 年龄:95 后大军已加入 

数据科学家的年龄一般在 20 岁左右或 30 岁出头,约 60% 在 22 岁至 34 岁之间。只有五分之一的专业数据科学家年龄在 40 岁以上。

数据科学家年龄集中在 25 - 34 岁之间

有迹象表明,随着Z 世代(指大约 1995-2005 年之间出生的一代)更多地参与其中,数据科学家年龄越来越小,目前已有近 7% 的数据科学家年龄在 18-21 岁之间。

与去年的 5% 相比有所增长,因此,可以预见的是,未来这一群体将会越来越年轻。

2.3 所在国家:印度和美国霸榜前两位 

在参与此次 Kaggle 年度调查的数据科学家中,印度的数据科学家占 22%,而美国的占 14.5%,两者远远超过第三位的巴西(低于 5%)。

报告因为各项因素,并未将中国明确列入,但排名第三的 Other 的数量不低,也许是为纳入有效统计结果的中国用户。

印度和美国从事数据科学家的人数优势明显

2.4 受教育程度:研究生学位是标准 

调查显示,与往年一样,研究生学位仍然是数据科学家的标准,超过 68% 的数据科学家拥有硕士或博士学位。只有不到 5% 的数据科学家没有高中以上学历。

超过半数的数据科学家都拥有硕士学位

2.5 学习平台:Coursera 和 Udemy 最常用 

数据科学和机器学习正在迅速改变,所以受访者中,超九成仍会继续保持学习。其中,大约 30% 的人选择了传统的高等教育课程,更多的人则通过在线资源学习。

在本次调查中,Coursera、Udemy 和 Kaggle Learn 是最常见的学习平台。

很多人不止在一个平台上学习,调查显示他们人均会选择 2.8 个平台

2.6 编程经验:绝大多数有多年编程经验 

受访者中,大多数数据科学家都至少有几年的编程经验。甚至,超过 8% 的数据科学家从上个世纪,也就是至少 20 年前,就开始编程了。只有不到 2% 的数据科学家声称从来没有写过代码。

从全球来看,美国数据科学家的编程经验要丰富得多。在美国,37%  的人从事编程工作 10 年以上,而全球的话,这个比例只有 22%。

编程经验对于数据科学家来说较为重要

2.7 机器学习经验:大多数为机器学习新手 

受访者中,大多数的数据科学家在机器学习方面都是新手。只有不到 6% 的专业数据科学家已经使用机器学习 10 年或更久。

大约超过半数的数据科学家,机器学习方面经验少于三年

2.8 薪资水平:美国最具竞争力 

数据科学家收入相当有竞争力,而美国数据科学家薪资最高,平均达 12 万 - 15 万美元(约合人民币 78 万 - 98 万元)。

而印度虽然数据科学家数量多,但是收入却并不高,近 90% 的印度数据科学家每年的收入不到 5 万美元,仅仅排在全球数据科学家薪资排行榜第六位。

全球各国数据科学家薪资中位数

他们都用什么集成开发环境?

报告显示,JupyterLab IDE 仍然是数据科学家的首选工具,大约有四分之三的数据科学家使用它。不过,这一数字比去年的 83% 有所下降。Visual Studio 代码排名第二,仅略高于 33%。

他们都用什么机器学习框架?

基于 Python 的机器学习库仍居主导地位。其中,Scikit-learn 是一款适用于大多数项目的超级武器,排名第一,有五分之四的数据科学家在使用它。

调查中,TensorFlow 和 Keras,则分别有 50% 的数据科学家在使用。

其中,国内陈天奇博士打造的 Xgboost 排名第四

数据科学家成热门职位,你也要加入吗?

从 2016 年起,kaggle 每年都会进行这样一次调查,让我们能够更清晰地看到机器学习与数据科学从业者的立体画像,以及这一领域的发展趋势。

在大数据时代,企业对数据科学家这一岗位的需求爆发式增长。同时,广阔的发展前景和丰厚的薪酬,也使得数据科学家成为很多人的梦想职业。

根据 Google Trends 显示,在过去近十年,人们对数据科学家这一职位兴趣猛增

不过,从 kaggle 的调查报告中,我们看到,数据科学家这一职业已经越来越年轻化,他们受教育程度也越来越高。因此,要想加入这一赛道,所面临的竞争也是不小的。

kaggle 报告:https://storage.googleapis.com/kaggle-media/surveys/Kaggle%20State%20of%20Machine%20Learning%20and%20Data%20Science%202020.pdf

更多精彩推荐
☞Rust 2020 调查报告出炉,95%的开发者吐槽Rust难学
☞从“卡脖子”到“主导”,国产数据库 40 年的演变!☞毫秒间完成行为分析,飞猪端智能技术实践!☞Windows 拥抱 Android,微软在下怎样的一步棋?☞中芯国际再曝内讧,联席 CEO 梁孟松愤然辞职☞开通会员配送费反而更高了?美团外卖发致歉声明!
点分享点点赞点在看

Kaggle 年度报告出炉:数据科学家年轻高学历,薪资近百万相关推荐

  1. Kaggle 年度报告出炉:数据科学家年轻多金,薪资近百万

    ‍ 来源:HyperAI超神经 本文约2400字,建议阅读5分钟 2020 年已经逐渐接近尾声,kaggle 发布了其年度调查报告<机器学习与数据科学 2020>,向我们展示了当前数据科学 ...

  2. 2020年财富金字塔出炉,你距离高净值还有多远?

    以前"累丑穷"总能带话题引发关注,但没想到眼下这个"富裕"的话题也冲上了热搜,突然发现,富也是一种超越语言.却看着这个词内心充满故事质感的词. 2020年财富金 ...

  3. DMV年度报告出炉:百度超Waymo获第一,接管率是不是自动驾驶“照妖镜”?

    作者:大壮旅 来源:新智驾 加州车管所(DMV)的 2019 年年度自动驾驶接管报告如期而至. 按照相关规定,在加州道路上测试自动驾驶汽车的公司每年都要向 DMV 披露年度测试里程以及人类驾驶员接管次 ...

  4. Apache年度报告出炉,大数据项目依然最活跃

    对于整个Apache社区来说,2018年是伟大的一年.Apache软件基金会托管着近2亿行代码,我们的持续成功要归功于由社区主导的"The Apache Way",300多个Apa ...

  5. 斯坦福2019 AI年度报告出炉 - 700亿美元投入AI

    点击上方"深度学习技术前沿",选择"星标"公众号 资源干货,第一时间送达 转载自机器之心 由斯坦福大学发起的人工智能指数(AI Index)是一个追踪 AI 动 ...

  6. 报告 | 斯坦福2019 AI年度报告出炉!700亿美元投入AI,自动驾驶融资最多

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :https://hai.s ...

  7. 微服务2017年度报告出炉:4大客户画像,15%传统企业已领跑

    开篇: 如果在诸多热门云计算技术中,诸如容器.微服务.DevOps.OpenStack 等,找出一个最火的方向,那么非微服务莫属.尽管话题炙手可热,但对传统行业来说,微服务落地和方法论目前处于起步阶段 ...

  8. Go在招聘中最吃香,安全工程师薪资涨幅最高 | 软件工程师年度报告出炉

    整理 | 于轩 出品 | 程序人生 (ID:coder _life) 近日,招聘公司Hired发布了<2022年软件工程师状况>报告.Hired发现,随着人才竞争的加剧,招聘市场对软件工程 ...

  9. 都在夸官方文档 Vue.js 2021 年度报告出炉!

    整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 作为前端开发框架三剑客之一,Vue 自 2014 年发布以来,成为很多开发者必备的工具. 近日,国外软件开发机构 Monterail 在对 ...

最新文章

  1. Codeforces 375D - Tree and Queries(dfs序+莫队)
  2. boost::spirit模块实现允许调整模板数据的技巧结构作为融合序列以用于直接属性传播的测试程序
  3. matlab把符号数,Matlab 符号与数值之间的转换
  4. Laravel 除了首页能正常访问,其它页面均404
  5. Android笔记 隐式意图vs显示意图+隐式意图打开短信应用demo
  6. 【英语学习】【医学】无机化学 - 化合物命名(1) - 离子化合物
  7. java爬虫框架哪个好_Java爬虫(二)Java爬虫框架
  8. HashMap底层实现原理解析
  9. python背景颜色代码大全_Python实现转换图片背景颜色代码
  10. STM8 I2C从机
  11. 测试 CS4344 立体声DA转换器
  12. 非线性规划MATLAB求解原理,专题六--非线性规划介绍及其Matlab求解方法.ppt
  13. The bean ‘Xxx‘ could not be injected as a ‘Xxx‘ because it is a JDK dynamic proxy that implements:x
  14. 传感器实训心得体会_生产线实习心得体会范文
  15. 美业SaaS的创业分享之[定位]:美业SaaS的定位到底是工具还是平台
  16. 学语言·写博客·分享交流——《我是一只IT小小鸟》读书笔
  17. innodb和myISAM 1075
  18. Mac 如何连接远程服务器
  19. 爬虫实践:陕西招投标爬虫(三个网站)xpath封装并exe
  20. *** stack smashing detected *** 是什么意思?怎么破

热门文章

  1. 敏捷测试与传统测试的区别
  2. E. Mahmoud and Ehab and the function Codeforces Round #435 (Div. 2)
  3. asp.net分割字符串的几种方法
  4. 移动端 js 弹出层内容滚动的时候,不影响body的滚动条处理
  5. SQL SERVER 收缩数据库的命令
  6. ASP.NET2.0入门经典(第4版)—3.5 服务器控件的类型(2)--zt
  7. 《SQL高级应用和数据仓库基础(MySQL版)》学习笔记 ·010【高级查询】
  8. 矩池云通过本地端口转发方式登陆VNC
  9. conda环境内安装gcc4.8.5(无root权限)
  10. epoll关于ET、LT模式和socket非阻塞模式的几个总结