目录

一、大数据是什么

二、大数据具体都做些什么

三、大数据领域有哪些职业

四、自己该选择哪个职业方向

五、各职业的成长和发展路线

六、最后


一、大数据是什么

自己在互联网大数据行业已有多年工作经验,目前在头部大厂数据中台团队任职,将自己对大数据领域的一些经验和思考分享给大家,希望帮助到一些人。

什么是大数据?简单一句话来说就是海量数据的存储、计算、管理和价值挖掘,并最终为企业乃至社会创造价值。

二、大数据具体都做些什么

首先是数据采集,从服务端、客户端采集原始数据,通过数据清洗转化加工放入数据仓库中存储;海量数据进来如何进行管理,那就需要在数据仓库中利用各种方法论来进行数据管理和治理;数据有序管理和加工后,再一步就是如何为业务输出价值了,通常会有数据分析师、BI等角色来对数据进行分析计算,然后为业务方提供数据支持或者业务建议。

那数仓中的数据如何存储和加工、又如何做数据分析计算呢?这就又用到大数据的基础技术:分布式存储和分布式计算,这些技术已经有比较成熟的开源技术如hadoop等,但要应用这些技术还需要去搭建和维护大数据集群。为了让大家更简单高效的使用众多大数据底层技术,同时更好的支持数据日常管理和数据分析,就需要开发相应的大数据平台来支持相关研发和分析师进行日常工作了。另外,也有部分业务场景如鉴黄、垃圾信息识别等需要利用数据挖掘手段来进行处理。

三、大数据领域有哪些职业

1、数据工程方向

  • 大数据平台研发

开发数据平台,如数据开发平台、数据分析平台、数据地图、报表工具等。对java编程能力要求较高,在有些分工较细的团队可能更偏向于后端研发工程师,做数据平台一般要熟练掌握Hadoop、Hive、Flink、spark等大数据技术栈,市场上此类职位相对较多。

  • 数据开发

利用hadoop、kafka、hbase、spark、redis等大数据技术为业务提供数据服务。跟数据仓库开发类似都主要对接很多日常业务需求,但是实现方式有些不同,数仓更多是通过开发数仓表来支持业务,而是数据开发对技术要求更高,综合利用各种大数据技术栈来解决一些技术问题或支持业务需求。比如一些大的算法工程都需要有数据开发来提供一些个性化数据服务,将处理好的数据供算法团队调用。

  • 大数据底层技术研发

该职位市场需求量较少,但技术能力要求最高。由于Hadoop等开源技术已比较成熟且研发门槛高,绝大部分公司不需要自研底层分布式存储、计算、资源调度等服务,少数大公司会在开源技术基础上进行优化改造以适应自身需求。在阿里巴巴,借鉴业界开源技术自研了分布式存储计算调度等服务,为阿里大数据中台提供基础底层技术支持,无论性能还是稳定性均优于业界开源技术,这些数据服务封装后也对阿里云客户进行售卖,使得中小企业可以快速具备大数据分析应用能力。

2、数据仓库方向

  • 数据仓库开发(也叫ETL开发工程师)

通过一些列数仓建设方法论和建模知识搭建面向分析的数据仓库。在大公司日常工作更多是面向需求开发中间层和应用层数据模型,SQL是高频使用的工具,对编程能力要求不高,对业务需要多一些理解。但对于中小公司大数据基础设施不够完善时,数仓开发需要对spark、flink等数据技术原理和调优都比较熟悉,这个职位主要做日常业务需求,职位需求量较多,在中小数据团队通常会兼顾下方数据治理相关工作。

  • 数据治理

一般数据仓库通常会存在不少问题,如烟囱式开发、模型不规范、跨层依赖、口径不统一等等问题,数据治理主要工作内容就是保障数据仓库的数据质量,优化数仓开发规范和流程、保障数据准确、口径统一,使数仓更更好更高效的支持业务分析需求。有些分工较细的团队才会专门有该职位,数据治理工程师首先要是一名优秀的数仓工程师,才能做好数据资产治理。

3、数据分析方向

  • 数据分析师

首先需要掌握基础的数据分析工具,如excel、sql等,然后需要具备一些数据分析相关的统计学知识和数据分析方法论,对业务需要有较为深入的了解。日常工作主要是帮助业务方提取并分析数据,并提供业务上的建议。该职位需求量较大,已成为数据团队的标配角色之一。

  • BI工程师

BI全称:Business Intelligence,即商业智能。BI工程师日常工作主要是针对不同业务团队的数据需求进行可视化报表开发,设计匹配业务需求的数据集市和应用层宽表等,需要具备一定的数据分析能力,同时对业务也要有比较深入了解。

  • 数据挖掘

主要是通过机器学习、深度学习等数据挖掘技术手段,研究和落地基于业务场景的算法和模型,来挖掘数据潜藏的价值,利用数据赋能业务。门槛相对较高,该职位也可归类于人工智能大方向中。

四、自己该选择哪个职业方向

通常一个普通的数据团队标配是大数据平台研发、数据仓库开发、数据分析师三种角色,所以这三种角色也是互联网公司数据方向需求量最高的职业。

首先,大数据平台研发,对编程能力要求较高,跟普通技术研发有点类似。所以如果对编程比较感兴趣,可以选择该方向。

如果自己对编程不太擅长,那可以考虑数据仓库方向。数据仓库开发对sql能力和数仓建模能力要求较高,比较重数仓相关理论和建模方法,对编程能力要求不高,门槛和上手难度相对较低一些。

如果对编程实在不感兴趣,数据分析师也是个不错的选择,入行门槛不高,但薪资也相对其他大数据方向较少,如果想拿到互联网大厂的高薪数据分析工作,名校或优秀的工作经历背景是个重要加分项,同时也需要对数据分析相关统计学知识和数据分析方法论有比较深入的理解和沉淀,业务sense也是重点考察项。

五、各职业的成长和发展路线

  • 数据平台研发方向

首先是技术基础,熟练掌握计算机基础知识和Java等编程语言开发能力,其次要对大数据技术栈Hadoop等有比较深入的理解和应用能力。 在技术能力积累到一定程度后,在团队细分方向中深耕,创造高产出和价值,成长为细分方向负责人角色,后期通过增强技术影响力、项目管理、团队管理等软实力技能走向更高的管理层职位。对大多数人职业发展中后期还是建议走管理路线,或者说朝这个方向去努力,因为即使技术持续深耕成为高级技术专家一般也是要带技术团队的,毕竟一辈子在一线写代码在中年危机盛行的互联网行业并不是很实际的事情。

  • 数据仓库方向

首先要具备一定的计算机基础知识,同时要精通sql,不断学习数仓建设方法论,然后通过项目实战不断的加强对各种理论知识(如数仓搭建、建模方法、数据治理等)理解程度,逐步的成为数据仓库建设和开发领域的资深工程师甚至技术专家。

  • 数据分析方向

虽然数据分析门槛不算高,初期掌握数据分析的基础工具可能就能开始工作,但如果想获得更好地发展,除了不断学习积累各种分析理论和统计学方法,还要不断沉淀自己的数据分析方法论,在数据分析专业能力素养足够强之后,最终走多远的关键就取决于对业务的理解和推动能力,一个数据分析专家通常也是业务专家。

六、最后

大数据早已从炒的很火的概念落地成企业不可或缺的数据能力,数据时代正在来临,大数据未来一片光明。但不可否认,行业竞争也在不断加剧,日后公司间竞争、数据人之间的竞争都会愈来愈激烈,我们要努力保持自己始终处在成长和进步的轨道上,创造更持久的市场竞争力。

大数据领域各职业介绍与发展路线相关推荐

  1. 解密大数据领域岗位职业发展路径

    我们迎来了一个新的时代,这就是大数据的时代. -经济学家 詹姆斯·莫里斯 行业背景 国家信息中心<2017中国大数据产业发展报告>对我国大数据产业发展的人才.政策.投融资.创新创业.产业发 ...

  2. 大数据领域的Benchmark介绍

    一.Benchmark简介 Benchmark是一个评价方式,在整个计算机领域有着长期的应用.正如维基百科上的解释"As computer architecture advanced, it ...

  3. 大数据领域就业和发展指南

    随着秋季校招落下帷幕,网上的各类招聘数据也已分布,大数据行业工程师以平均月薪11,600元领跑全国,成为"超高薪.高大上"的代名词.如果你学的是大数据相关专业,那么恭喜你,你的发展 ...

  4. 从入门到高手:大数据领域就业和发展指南

    随着秋季校招落下帷幕,网上的各类招聘数据也已分布,大数据行业工程师以平均月薪11,600元领跑全国,成为"超高薪.高大上"的代名词.如果你学的是大数据相关专业,那么恭喜你,你的发展 ...

  5. 大数据领域的性能测试Benchmark介绍

    前言:大数据领域的性能测试Benchmark介绍,需要的可以看看! 一.Benchmark简介 Benchmark是一个评价方式,在整个计算机领域有着长期的应用.正如维基百科上的解释"As ...

  6. 数据猿·金猿榜丨2017中国医疗大数据领域最具潜力创业公司

    [数据猿导读] "2017中国医疗大数据领域最具潜力创业公司"盘点源于数据猿推出的"金猿榜"系列内容,旨在通过媒体的方式与原则,发掘大数据领域最具潜力的创新型企 ...

  7. 2019如何高效地进入大数据领域

    2019如何高效地进入大数据领域 大数据正颠覆着商业.产业模式,改写着城市.乃至地球的未来.想要利用大数据,除了编程.统计学等基本功外,还需要依靠新思维,人类必须颠覆千百年来的思维惯例,这将对人类的认 ...

  8. 大数据领域75个核心术语讲解!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 选自:DataConomy,来源:机器之心 近日,Ramesh Dont ...

  9. Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍

    一.大数据的基本概念 1.1.什么是大数据 大数据指的就是要处理的数据是TB级别以上的数据.大数据是以TB级别起步的.在计算机当中,存放到硬盘上面的文件都会占用一定的存储空间,例如: 文件占用的存储空 ...

最新文章

  1. Hadoop 停止hdfs和yarn的命令
  2. .NET定时任务执行管理器开源组件–FluentScheduler
  3. Android OpenSL ES 对象结构
  4. Spring Cloud——Consul——架构体系
  5. 异步生成器_异步生成器作为状态管理的替代方法
  6. centos 6 apt.sw.be 错误 无法yum安装软件解决方案
  7. Unity Mathf And Transform Compent(一)
  8. 浏览器控制台Network面板简述
  9. 第 45 届国际大学生程序设计竞赛(ICPC)亚洲区域赛(昆明)(热身赛) C-Statues 题解【dp】【动态规划】
  10. Java中守护线程和本地线程区别,这特么太重要了!
  11. 编写ASCOM平台的驱动
  12. SFTP上传本地文件报错找不到文件或路径
  13. 给我五分钟,带你彻底掌握 MyBatis 缓存的工作原理
  14. Pr:Lumetri 范围
  15. 视频教程-Web前端开发利器 SPRY框架之表单验证-JavaScript
  16. 【在线图表生成】掌握这些图表,年终报表根本不用愁!
  17. Keras BP神经网络运用于波士顿房价预测
  18. HMS Core Drive SDK构建使用华为云空间服务应用程序
  19. Linux 下进行服务器间网络测速
  20. 精心整理shell脚本100例(最新版)

热门文章

  1. ImportError: _C.cpython-37m-x86_64-linux-gnu.so: undefined symbol:_ZN3c107Warning4warnENS_14SourceL
  2. 2021年蚌埠学院的高考成绩查询,2021年蚌埠学院高考录取通知书查询 通知书什么时候可以收到...
  3. 真给 IT 人丢脸啊!看完我直接蚌埠住了!
  4. 客似云来(Java)
  5. 四自由度机械手c语言编程设计,stm32开发:一种四自由度机械臂的简单算法
  6. 众数问题(分治方法解决)
  7. Revit插件 | 建模助手插件框架重大更新
  8. 天旦客座民生商学院、华夏银行,分享产品思维,启航数字化转型
  9. 进程间的通信--无名管道
  10. java进阶一 java8的新特性