数据行业非完全入门指南!
↑↑↑关注后"星标"Datawhale
每日干货 & 每月组队学习,不错过
Datawhale干货
作者:桔了个仔,南洋理工大学,Datawhale成员
之前给从传统制造业转行的数据行业的朋友列的一个笔记,这里把原文贴出来。现在看来概括性不够,不过适合对大数据没有太多了解但想入行的人阅读。(语言环境问题,笔记里中英文交错,也没太整理,望见谅)
Data相关行业介绍与入门要求。
Entry level 的相关职位。
Junior level员工职业发展路径。
一、Data相关行业介绍与入门要求
Data算不上行业,每个行业都会产生数据,公司越大产生的数据越多,需要的人才也越多。
也有的公司自己不存数据,只提供技术给其他大公司做数据建模的。
做Data的有几种情况:
Data Scientist as analyst
Data Scientist as model builder
Data Scientist as engineering
Data Scientist as full-stack
对Data职位来说,一般数学有一定要求,概率论和数据统计会经常面试考到,常见的考题会发给你看看,但如果你没有这个基础,还是要从头学习一下的。
数学要求:概率论和数据统计,线性代数等,面试常见考题包括:
均值与方差及其公式
什么是高斯分布
什么是正态分布
贝叶斯公式
三门问题
2.技能树(从入门到必须):
python或者R。python资源较多,建议先学python
数据可视化。其实excel也可以做到,但还是
数据建模。会用到机器学习的知识
3. 学习资源:(coursera旁听audit不花钱,其实花钱拿证书含金量也不高,企业不怎么认可)
统计基础 https://www.coursera.org/learn/basic-statistics
Python 入门 https://www.coursera.org/specializations/python
DS 方向的python https://www.coursera.org/specializations/data-science-python
Python 数据可视化 https://www.coursera.org/learn/python-for-data-visualization
机器学习 https://www.coursera.org/learn/machine-learning
如果是偏深度学习方向,例如计算机视觉,自然语言处理,会考到线性代数,要知道怎么进行矩阵运算。但为了先入门,这里就不介绍太多,怕消化不来。
引申:几种常用的机器学习
监督式学习(supervised learning)需要标记数据
非监督式学习(unsupervised learning)不需要标记数据。代表算法:k-means
强化学习(为了不压垮你的大脑,先跳过介绍)
业界常见模型:
CNN: 主要用于识别图像
LSTM:处理时间序列 ,自然语言处理等
二、Entry level 相关职位
两个方向:
Data Engineer 编程语言:Scala, Java。软件框架包括hadoop, spark, hive, postgreSQL 等等。
Data Scientist 编程语言: Python(最常用), R(少数公司用)。软件有的公司会自建Data Science Studio.也有很多服务提供商提供了DSS,例如DataRobot, Dataiku等。但建议不要依赖语言。Jupyter notebook是比较适合调试python 的工具,某些课程上会讲到。
两个方向都需要的:SQL语句(https://link.zhihu.com/?target=https%3A//www.coursera.org/learn/analytics-mysql)
如何入行与关注职位要求变化
学习上述的基本课程。
上linkedin看职位需求(注:国内linkedin用得少,可以看其他招聘网站)
三、Junior level员工职业发展路径
Data Scientist 路线:senior → lead, 足够经验后可以做独立consultant或者加入咨询公司
Data Engineer,senior → lead → 架构师
全栈方向,DS和DE都懂,现在有的公司招的是两方面都懂的,但建议先在某个方向做好了再去做另一个方向。两个方向都懂的consultant更吃香
原文:https://zhuanlan.zhihu.com/p/101111340
我是桔了个仔,一个和猫咪一起写代码的猫奴,更多内容可点击原文查看。
“整理不易,点赞三连↓
数据行业非完全入门指南!相关推荐
- oracle把数据分开,Oracle初学者入门指南-系统与用户数据分离
Oracle初学者入门指南-系统与用户数据分离 今天一个朋友的数据库出现问题,请我帮忙查看,其实问题本身很简单: Fri Jun 19 10:30:00 2006 ORA-1653: unable t ...
- 交互式数据包处理程序 Scapy 入门指南
概述 Scapy 是一个强大的交互式数据包处理程序(使用python编写).它能够伪造或者解码大量的网络协议数据包,能够发送.捕捉.匹配请求和回复包等等.它可以很容易地处理一些典型操作,比如端口扫描, ...
- python matplotlib数据可视化教程_matplotlib的Python数据可视化和探索——入门指南
matplotlib--最受欢迎的Python库,用于数据可视化和探索 我喜欢在Python中使用matplotlib.这是我学会掌握的第一个可视化库,此后一直存在.matplotlib是最受欢迎的用 ...
- vue移动端用什么数据可视化插件_前端必看的数据可视化入门指南
作者:董晓庆 蚂蚁金服体验技术部 这是一篇给大家提供数据可视化开发的入门指南,介绍了可视化要解决的问题和可以直接使用的工具,我将从下面几个方面给大家介绍,同时以阿里/蚂蚁的可视化团队和资源举例说明: ...
- 群晖nas介绍文档_群晖 NAS 选购 入门指南:动手打造自己的家庭数据中心
原标题:群晖 NAS 选购 & 入门指南:动手打造自己的家庭数据中心 Matrix 精选 Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考.我们会不定期挑选 ...
- 数据分析从头学_数据新闻学入门指南:让我们从头开始构建故事
数据分析从头学 by Mina Demian 由Mina Demian 数据新闻学入门指南:让我们从头开始构建故事 (A Beginner's Guide to Data Journalism: Le ...
- 【51单片机快速入门指南】4.4.1:python串口接收磁力计数据并进行最小二乘法椭球拟合
目录 硬知识 Python代码 使用方法 串口收集数据 椭球拟合 验证 STC15F2K60S2 16.384MHz Keil uVision V5.29.0.0 PK51 Prof.Develope ...
- 网贷大数据什么时候会好_为什么大数据待遇那么好 如何入门大数据行业
为什么大数据待遇那么好?如何入门大数据行业?在IT技术中,有不少技术因为低端人才的饱和,对从业者提出越来越高的要求,从而加大了初级程序员找工作的压力.相对于其他IT技术,大数据的人才需求正处于供不应求 ...
- 填补行业空白《数据中心机房搬迁实用指南》发布会成功举办
2022年7月19日下午,由数据中心世界网与金翰华教育联合主办的<数据中心机房搬迁实用指南>新书发布会暨数据中心建设管理那些事儿(方塘微课)在线上成功举办.来自数据中心行业的专家老师.上下 ...
最新文章
- 哪些软件问题也可导致硬盘录像机死机
- 数据可视化的开源方案: Superset vs Redash vs Metabase (一)
- [编程题] 迷路的牛牛
- 【技术分享】CSS 实现渐变色背景
- oracle数据库之数据导入问题
- Unix网络编程(六)高级I/O技术之复用技术 select
- 机器学习笔记(一)----基本概念
- 在 Xcode 中进行自动化测试 (2/2)
- 正反观点验证2010年10大安全挑战
- linux查看文件时显示行号,linux中查看文件时显示行号
- (day 48 - 双端队列的使用 ) 剑指 Offer 59 - II. 队列的最大值
- 强烈推荐与孩子一起学编程(老少咸宜的编程入门奇书,荣获Jolt生产效率大
- 字下挂星星的字体_星星掉了字体下载|星星掉了字体 最新版(TTF格式) 下载 - 巴士下载站...
- 海康威视工业相机使用
- 富士通Fujitsu DPK320 打印机驱动
- b和kb的换算_b和kb的换算(b换算成kb)
- 用计算机表白我不喜欢你了,【北邮表白墙】与卿初相识,犹如故人归。表白计算机院的苏苏,喜欢你是我最正确的选择?...
- ogre研究之第一个程序
- 地图坐标系统(各种坐标系详解)
- win10怎么取消文件默认打开方式