来源:机器之心

本文约2000字,建议阅读5分钟

近日,Kaggle 正式发布了 2020 年度报告,总共调查了 2 万多名开发者,但美国实体清单上的个人 / 实体代表除外。

Kaggle 是重要的数据建模和数据分析竞赛平台。近日,Kaggle 发布了第四次年度报告,试图从中一窥社区趋势。该调查涉及 20036 名 Kaggle 会员,此报告主要聚焦其中当前职位为「数据科学家」的受访者,约占 13%(2675 名)。

值得注意的是,想要成为参与调查并获得所设奖项,必须满足以下条件:

  • 年满 18 岁(或满足你所居住地区的成年年龄);

  • 不是克里米亚、古巴、伊朗、叙利亚、朝鲜或苏丹的居民;

  • 不是受美国出口管控条例制裁的个人 / 实体代表。

因此,这份报告可能会缺少相当一部分来自中国的 Kaggle 数据科学家的情况。

在众多回答中,Kaggle 总结了以下要点:

群体画像

  • 数据科学领域仍然存在严重的性别不均衡,大部分从业人员为男性;

  • 大部分数据科学家年龄在 35 岁以下;

  • 过半数据科学家有硕士学位。

教育和雇佣情况

  • 大多数数据科学家在正式教育之外继续学习;

  • 大多数数据科学家码龄不超过十年;

  • 过半数据科学家具备三年以下的机器学习经验;

  • 美国的数据科学家比其他国家的同行挣更多钱。

技术

  • 与 2019 年的调查结果相比,2020 年更多的数据科学家使用云计算;

  • scikit-learn 是 2020 年最流行的机器学习工具,超过五分之四的数据科学家使用 scikit-learn;

  • Tableau 和 PowerBI 是最流行的商业智能工具。

下面,我们来看每个层面的具体细节。

数据科学家群体画像

性别

数据科学领域仍然存在较大的性别差距,82% 为男性,相比去年的 84%,略有下降。

年龄

与去年的调查结果类似,数据科学家多为 30 岁左右,约 60% 的受访者年龄在 22-34 岁,只有 1/5 的职业数据科学家是 40 岁及以上。

国家

在本次报告中,印度开发者所占的比例最多(21.8%),美国紧随其后(14.5%),再往下是巴西和英国。

教育

高等教育

数据科学家大多有硕士学位,68% 获得了硕士或博士文凭,不到 5% 的学历在高中及以下。

终生学习

数据科学和机器学习是快速变化的领域,90% 以上的 Kaggle 数据科学家保持终生学习的习惯。其中约 30% 接受的是传统高等教育课程,更多是通过线上材料学习。线上学习渠道中最常用的媒介是 Coursera、Udemy 和 Kaggle Learn。受访者中很多数据科学家选择多个学习渠道,平均数量为 2.8。

数据科学和机器学习经验

编程经验

大多数 Kaggle 数据科学家都有编程经验。有 20 年以上编程经验的数据科学家仅有大约 8%,去年才开始编程的数据科学家占比约 9%。只有不到 2% 表示自己从未写过代码。

与全球受访者相比,美国数据科学家的编程经验要多得多。在美国,编程经验超过 10 年的占比 27%,而全球范围内这一比例仅为 22%。

机器学习经验

大多数 Kaggle 数据科学家都是机器学习领域的新手。约 55% 的数据科学家机器学习经验不到三年,具备十年及以上机器学习经验的数据科学家占比不到 6%。

薪资水平

调查结果显示,在国家 / 地区的最常见工资中,美国公司可能支付的金额更高,德国和日本紧随其后。地区差别是存在的,比如来自印度的受访群体 90% 表示年收入不足 5 万美元,美国公司最有可能支付六位数的薪水。

技术

交互开发环境

基于 Jupyter 的 IDE 仍然是数据科学家的首选工具,大约 75% 的 Kaggle 数据科学家都在用它,但与去年的 83% 相比有所下降。VS Code 位居第二,仅占约 33%。这是它与 Visual  Studio 分离的第一年,两者今年合计占比超过 43%,而 2019 年不足 30%。

方法 & 算法

数据科学家最常用的算法是线性回归和 logistic 回归,紧随其后是决策树和随机森林。在更加复杂的方法中,梯度提升和卷积神经网络是最受欢迎的方法。

基于 Python 的工具仍然在机器学习框架这一项上占据主导,从统计结果可以看出,scikit-learn 适用于大部分项目,82.8% 的数据科学家都在使用它。各有 50% 左右的数据科学家使用过 TensorFlow 和 Keras,尤其是用于深度学习项目之中。

梯度提升库 xgboost 排名第四,使用率和 2019 年相似。排名第五的 PyTorch 从 2019 年的 26% 左右上升到了 30% 以上。在今年的调查中,最受欢迎的工具是基于 R 的 Tidymodels,占比达到 7% 以上。

企业云计算

这个领域有三个主要成员(不难猜),它们是 AWS、谷歌云平台、微软 Azure。值得注意的是,越来越多的数据科学家开始采用全部上云的方式。在 2019 年的调查中,大约 25% 的人没有使用云计算,但在 2020 年,这一比例下降到了 17%。

在云服务用户中,如果问到他们使用的特定产品,最常见的答案是计算云服务器,其次是无服务器技术,约有五分之一的人未提到云产品。

在使用 AWS 等云服务的用户中,有一半以上表示自己没有使用云上的机器学习工具,而使用的群体中,Amazon SageMaker 是最受欢迎的选项,其次是 Google Cloud AI/ML。

企业大数据

在数据库方面,数据科学家并没有明显的偏好。最常被提及的是 MySQL(35.6%),其次是 PostgreSQL (28.86%) 和 SQL Server (24.93%)。

报告链接:

https://www.kaggle.com/c/kaggle-survey-2020

编辑:文婧

校对:汪雨晴

2020 Kaggle年度报告发布:美国公司最容易「人均百万」,90%数据科学家坚持终生学习...相关推荐

  1. 2020年涨薪26-30%,能实现吗?18%数据科学家是这么期待的

    作者丨Big Cloud 编译 | 武明利,责编丨Carol 出品 | AI科技大本营(ID:rgznai100) 本报告将深入探讨亚太地区各个背景.不同年龄和不同地点的专业人员对2019/2020年 ...

  2. 砸自家招牌?PS 发布准确率高达 99% 的「去 PS」神器

    雷锋网(公众号:雷锋网) AI 科技评论按:天下苦「假照」久矣,作为世上闻名的「亚洲四大邪术」之一,中国 PS 术让人人皆可化身大片主人翁,与此同时也给现代社会带来了不少的困惑与恐慌--如今网上充斥大 ...

  3. 美国三院院士「迈克尔•乔丹」长文论述:为什么说「人工智能革命」尚未发生...

    作者:Michael Jordan 雷克世界」编译:嗯~是阿童木呀.KABUDA.EVA 人工智能(AI)是当前时代的颂歌.这句话是由技术人员.学者.记者和风险投资家一致提出且真诚赞扬的.就像其他许多 ...

  4. 全球首个城市内河无人驾驶数据集发布、奥地利学者用「量子扭曲」加速强化学习 | AI日报...

    全球首个城市内河无人驾驶数据集发布 近年来,内河无人船因其潜在的应用价值而受到广泛关注,不同于海面无人船和路面自动驾驶场景,内河行驶的无人船的定位和感知面临着独特的挑战.欧卡智舶联合清华大学与西北工业 ...

  5. 新造车公司背后的「资本大佬」

    来源:电动汽车观察家(ID:evobserver) 为了代表行业全貌,我们既分析光鲜靓丽的头部企业,也涉及比较不知名.甚至陷入舆论漩涡的一些企业,共十家代表企业资金的来源分析. 1.蔚来汽车 过往融资 ...

  6. 重磅发布 | 30+ 阿里巴巴云原生「顶流」,给你一堂《云原生技术实践公开课》

    以"云"为核心的软件研发思想,正逐步成为所有开发者的默认选项.像 Kubernetes 等云原生技术正在成为技术人员的必修课,大量的工作岗位正在涌现出来.2020 年,云原生技术大 ...

  7. 美国「四院院士」为你实力科普深度学习

    作者:特伦斯 · 谢诺夫斯基,世界十大 AI 科学家之一,美国四大国家学院(国家科学院.国家医学院.国家工程院.国家艺术与科学学院)在世仅 3 位的"四院院士"之一,AI 会议 N ...

  8. Google发布超难问答数据集「自然问题」:30万对问答,BERT都达不到70分

    郭一璞 发自 凹非寺  量子位 报道 | 公众号 QbitAI 世界上最大的冰盖在哪里? Google现在想到了一个办法能让AI来回答这个问题,他们开放了一个名叫自然问题(Natural Questi ...

  9. 微信小程序直播正式公测;刘强东 2020 年已卸任 8 家公司高管;React 16.13.0 发布| 极客头条...

    整理 | 屠敏 头图 | CSDN 下载自视觉中国 快来收听极客头条音频版吧,智能播报由标贝科技提供技术支持. 「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦, ...

最新文章

  1. Facebook性能大提升的秘密:HipHop
  2. MySQL学习----各种字符的长度总结
  3. 接口测试01 - HTTP协议报文结构及示例
  4. 80端口被屏蔽解决方法,80端口穿透之NAT端口映射技术
  5. 定义进项税代码缺省值
  6. Mybatis-入门篇-根据官方文档搭建
  7. 阿里云官方网站免费套餐怎么抢
  8. HTML期末作业-旅游网页
  9. 【学习 OpenCV】—— imgproc.hpp 核心api
  10. pyautogui获取鼠标位置及循环点击指定位置按钮
  11. 基于SSM的高校学生宿舍报修管理系统
  12. 深入mysql语言_深入简出mysql--第一部分
  13. 痱子和湿疹的区别在哪里?
  14. 从普通大专到阿里只用了8个月,我是如何在迷茫期后面试阿里拿到Offer,定级阿里P7的?
  15. 云呐|fsu动环监控单元是什么,fsu动环监控单元特点
  16. Gluster部署案例
  17. pygame的游戏窗口退出办法
  18. MTK6735 竖屏横用、旋转90度、MTK_LCM_PHYSICAL_ROTATION
  19. 四阶行列式计算_第二章 行列式--关于余子式和代数余子式的总结
  20. Java线程的同步和异步的区别

热门文章

  1. html5自定义属性作用,html5自定义属性:如何获取自定义属性值(附代码)
  2. python 运算符重载_零基础小白Python入门必看:面向对象之典型魔术方法
  3. python二级考试真题_2020年宁夏二级建造师考试《建筑工程》真题及答案-二级建造师...
  4. 降低函数之间的耦合度
  5. View 体系详解:View 的工作流程
  6. 实战:vue项目中导入swiper插件
  7. java 实现 excel sheet 拷贝到另一个Excel文件中 poi
  8. PHP 打印网页 输出 pdf,image 调用wkhtmltopdf/ WkHtmlToImage
  9. shell监控MySQL服务是否正常
  10. 《C程序设计的抽象思维》1.9编程练习