最新消息,Kaggle最近对机器学习及数据科学领域进行了全行业深度调查,调查共收到超过 16,000 份回复,受访内容包括最受欢迎的编程语言是什么,不同国家数据科学家的平均年龄是什么,不同国家的平均年薪是多少等。

不过,因为中国的数据收集不够全面,而美国数据也同样存在清洗不够的情况,所以,以下数据仅供参考。希望Kaggle下次能将数据做得更透彻更深入更全面。

以下为AI科技大本营对其进行的数据整理,并从中美数据科学和机器学习对比的角度呈现如下:

中美数据工作者概况对比

年龄

从世界范围来看,本次调查对象的平均年龄大约 30 岁,当然,这个值在各个国家之间有变动。以下为中美调查对象的年龄对比:

中国

在中国,机器学习从业者年龄的中位数是25岁,从业者集中在20-30岁年龄段。这可能反映出中国从业者人群的大体分布,但鉴于Kaggle所统计到的数据量,其中的细节还值得商榷一番。

美国

在美国,机器学习从业者年龄的中位数是32岁,以20-30岁年龄段的人数最多。但令人意外的是,我们在图表中看到一位年满100岁的大牛,还有几位年龄接近0岁的小朋友。我们尚不清楚Kaggle这里数据清洗的细节,不过这几位大牛果真存在的话,务请联系AI科技大本营,我们对您的存在非常感兴趣。

中美就业状况对比


中国全职工作者占53.%,美国则高达70.9%

中国

美国

中美数据科学具体职位对比图

数据科学领域可涵盖的工作非常多,包括机器学习工程师,数据分析师,数据科学家,软件开发人员,数据挖掘人员等。以下为中美在数据科学领域的对比图:

中国

美国

年薪

从全球来看,数据科学人员的年薪中位数为$55,441。在中国,数据科学家的年薪中位数为$29,835。美国则高达$110,000

中国全职年薪

美国全职年薪

最高学历

通常来讲,数据科学从业者中最普遍的学历是硕士,但一般来讲,博士学位能拿到($150K - $200K 和 $200k+)的高薪。

就中国而言,硕士学位在总体占比为40.5%,博士仅11.2%,本科学位从业人数则高达39.5%,与硕士从业人数持平。

而美国,硕士学位只有44.5%,博士学位高达20.7%,本科从业者占比也高达26.5%。

总的来说,美国博士学位高达20.7%,从占比上来看,接近中国的两倍(中国为11.2%)。

中国

美国

数据科学家到底是怎么工作的?


工作中使用什么样的方法?

Logistic回归是除了军事和国安领域外,最常用的数据科学研究方法。在军事和国防安全领域,神经网络使用地更多。

所有国家整体数据

数据工作中使用最多的工具语言是?

总体来说,Python是数据工作者使用最多的语言。同时,数据研究人员对R语言的忠诚度也很高。

所有国家整体数据

工作中使用什么类型的数据?

关系型数据市是最常用的数据类型。但在学术研究者和国防安全领域则更亲睐文本和图像。

所有国家整体数据

工作中使用什么样的代码共享和托管方式?

大部分数据工作者使用Git分享代码。不过,大公司的工作者更喜欢将代码保留在本地,并将代码用邮件分享。初创公司则用更快捷的云分享方式。

所有国家整体数据

工作中遇到了什么样的障碍?

脏数据(Dirty Data)是最大障碍。机器有侧重,但理解不同算法的能力不够也是一大困扰数据工作者的障碍。缺乏有效管理和资金支持是数据工作者面临的两大外在困境。


数据科学新手如何在这个行业崭露头角?

根据你的经验,你会向数据科学新手推荐使用哪种语言?

这个因人而异。在Python和R两大使用群体最大的语言中,大部分人觉得Python更值得被推荐。

你从哪里获得数据科学的学习资源?

数据科学是个变化极快的领域,业内人员需要不断更新知识体系,才可以在业内保持一定地位,不被时代淘汰。Stack Overflow Q&A,Conferences,和Podcasts是已从业者经常使用的学习平台。发布新软件时,一定记住阅读官方使用指南,并推荐去YouTube观看使用视频。

从哪里获得开放数据集?

没有数据就没有数据科学!当涉及到一些数据科学技巧时,知道如何找到练习所用的干净的开源数据集和项目非常重要。越来越多人开始使用我们的数据集聚合器(https://www.kaggle.com/datasets).

通过什么渠道获得工作?

根据数据科学领域过来人的经验,以下这些方法可能会比在公司网站,招聘网站上投递简历更高效,比如通过建立自己在这个行业的关系网络。

以上内容来自于kaggle网站。由于原文对多个国家进行了多维的对比,所以如果你想一览行业全貌,请点击:https://www.kaggle.com/surveys/2017

精彩课程

一百天人工智能工程师学习计划——全程实战案例,从机器学习原理到推荐系统实现,从深度学习入门到图像语义分割及写诗机器人,再到专属GPU云平台上的四大工业级实战项目。100天内完美掌握人工智能工程师必备技能。

2017年首份中美数据科学对比报告,Python受欢迎度排名第一,美国数据工作者年薪中位数高达11万美金相关推荐

  1. 必备 | 人工智能和数据科学的七大 Python 库

    来源:新智元 本文约3100字,建议阅读10+分钟. 本文汇总了2018年针对数据科学家/AI的最佳库.repos.包和工具. [ 导读 ]作者根据每周发布总结的系列文章,汇总了2018年针对数据科学 ...

  2. 《Python数据科学实践指南》——0.2节如何成为数据科学家

    本节书摘来自华章社区<Python数据科学实践指南>一书中的第0章,第0.2节如何成为数据科学家,作者纪路,更多章节内容可以访问云栖社区"华章社区"公众号查看 0.2 ...

  3. 艾瑞咨询发布国内首份数据库云管平台市场报告!

    前言 早在2018年,Gartner就将Private cloud dbPaaS(私有云dbPaaS)作为新兴技术纳入到数据管理技术能力成熟度曲线报告中.Private cloud dbPaaS保持私 ...

  4. 《R数据科学》学习笔记|Note8:使用dplyr处理关系数据

    使用dplyr处理关系数据 往期文章 <R数据科学>学习笔记|Note1:绪论 <R数据科学>学习笔记|Note2:使用ggplot2进行数据可视化(上) <R数据科学& ...

  5. garch预测 python_数据科学方面的Python库,实用!

    作者:Python开发与大数据人工智能原文:公众号 Python开发与大数据人工智能 Python是一种很棒的编程语言.事实上,它还是世界上发展最快的编程语言之一.它一次又一次证明了它在数据科学职位中 ...

  6. python的顶级库_三大用于数据科学的顶级Python库

    Python有许多吸引力,如效率,代码可读性和速度,使其成为数据科学爱好者的首选编程语言.Python通常是希望升级其应用程序功能的数据科学家和机器学习专家的首选. 由于其广泛的用途,Python拥有 ...

  7. 9月20日云栖精选夜读 | 如何轻松搞定数据科学面试:Python&R语言篇

    对于数据科学家来说,工作的一大部分都需要在交互式编程环境中对数据进行处理.分析和可视化. 在过去几年,R语言和Python成了进行数据科学中最炙手可热的两种语言.这两种语言各有优缺点,掌握这两种语言大 ...

  8. python数据科学导论_数据科学导论:Python语言(原书第3版)

    数据科学导论:Python语言(原书第3版) 作者:(意)阿尔贝托·博斯凯蒂;(意)卢卡·马萨罗 著 出版日期:2020年02月 文件大小:48.52M 支持设备: ¥50.00 适用客户端: 言商书 ...

  9. 数据科学导论python语言实现_数据科学导论:Python语言实现(原书第2版)

    数据科学导论:Python语言实现(原书第2版) 作者:(意)阿尔贝托·博斯凯蒂(Alberto Boschetti);(意)卢卡·马萨罗(Luca Massaron) 著 出版日期:2018年01月 ...

最新文章

  1. nginx coredump 不产生core文件
  2. 【大学物理】磁场的高斯定理
  3. 《又见一帘幽梦》高清视频
  4. Vue (响应式原理-模拟-5-Watcher)
  5. htop进程管理工具
  6. unicode和MBCS(多字节字符集)的关系
  7. CentOS7安装GNOME可视化界面 和 远程访问
  8. iStack与CSS配置实例
  9. html5游戏技术指标,2019上半年手游指标报告:Day 1留存率低于30%不及格?
  10. 计算机地址聚合,cidr怎么算?cidr地址聚合快速算法
  11. Coin 2017icpc-西安赛区 牛顿二项式
  12. Docker Nginx 如何重新加载配置
  13. 电脑连接上WiFi但是上不了网
  14. iPhone 蓝牙通信编程初步(网上收集)
  15. glGenTextures(GLsizei n, GLuint *textures)函数说明
  16. mp4文件播放不了怎么办?
  17. PHP处理CODE128C条形码数据为标准的打印机ESC指令
  18. 有没有适合男的下班以后做的副业?
  19. 什么叫JAVA驻场开发,它有什么优势和不足
  20. man fputc fputs putc putchar puts

热门文章

  1. 关于计算机网络传输介质 下列叙述正确的是,《计算机基础》习题1-7
  2. 算法总结---最常用的五大算法(算法题思路)
  3. 通过document.domain实现跨域访问
  4. Zepto.js库touch模块代码解析
  5. spring security remember me实现自动登录
  6. Android Studio 快捷键
  7. TCP拥塞控制算法内核实现剖析(二)
  8. 存货的计划属性设置(ATO模型和PTO模型)
  9. 谢文睿:西瓜书 + 南瓜书 吃瓜系列 11. 贝叶斯分类器
  10. Datawhale组队学习 Task03:栈与递归(2天)