大数据工程师工作内容取决于你工作在数据流的哪一个环节。

  从数据上游到数据下游,大致可以分为:

  数据采集 -> 数据清洗 ->数据存储 ->数据分析统计 ->数据可视化等几个方面

  工作内容当然就是使用工具组件(Spark、Flume、Kafka等)或者代码(Java、Scala等)来实现上面几个方面的功能。

JSP动态网页技术视频教程_Java服务端页面技术课程视频_JSP视频教程https://www.bilibili.com/video/BV1CY411P7SA/  一、数据采集:

  业务系统的埋点代码时刻会产生一些分散的原始日志,可以用Flume监控接收这些分散的日志,实现分散日志的聚合,即采集。

 二、数据清洗:

  原始的日志,数据是千奇百怪的

  一些字段可能会有异常取值,即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填。

  一些日志的字段信息可能是多余的,下游不需要使用到这些字段做分析,同时也为了节省存储开销,需要删除这些多余的字段信息。

  一些日志的字段信息可能包含用户敏感信息,需要做脱敏处理。如用户姓名只保留姓,名字用'*'字符替换。

  三、数据存储:

  清洗后的数据可以落地入到数据仓库(Hive),供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高,则可以把日志记录入到kafka。

  四、数据分析统计:

  数据分析是数据流的下游,消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据,简单的报表统计可以用sql在kylin或者hive统计,复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司好像会有个叫BI的岗位是专门做这一块的。

  五、数据可视化:

  用数据表格、数据图等直观的形式展示上游"数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据

  当然,大数据平台(如CDH、FusionInsight等)搭建与维护,也可能是大数据工程师工作内容的一部分。

一个大数据工程师的日常工作内容都是什么?相关推荐

  1. 大数据工程师的日常工作内容是干嘛?

    本文来源:知乎 大家好,我是脚丫先生 (o^^o) 最近小伙伴们,有问到大数据工程师岗位平常的日常工作都是干嘛的? 大数据或者说想入门大数据,技术肯定是第一重要的,不会大数据的技术谈什么大数据.那么大 ...

  2. 大数据工程师的日常工作内容

    "无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家.教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家.点这里可以跳转到教程.". 1 ...

  3. 大数据工程师的日常工作是什么?要掌握哪些核心技术?

    很多人都听过大数据工程师,但却很少人知道他们是做什么的?下面就带大家一起来了解一下大数据工程师的日常. 如果你对大数据感兴趣,下面的内容你一定要看看: 大数据工程师是做什么的? 分析历史.预测未来.优 ...

  4. 大数据工程师需要学习哪些内容

    大数据开发对于Java语言的依赖程度比较高,如果想尝试大数据开发,学习过Java语言就很容易上手 Java是目前使用广泛的编程语言之一,具有的众多特性,特别适合作为大数据应用的开发语言. 目前很多大数 ...

  5. 2022年大数据工程师薪资和工作趋势

    如果您对数字.数据和技术有浓厚的兴趣,那么数据工程师的职业就是您的最佳选择! Gartner 2021 年 4 月的一份报告预测,到 2022 年,全球超自动化经济将达到近6000亿美元,而帮助实现这 ...

  6. 从2018到2022: 一个大数据工程师眼中的TiDB

    作者:来自广州的大侠 原文来源: https://tidb.net/blog/5ab9e4ac 前言 岁月是一把杀猪刀,我把近几年对TiDB的回忆.思考.理解.定义写成一段真实的故事,做为国产数据库人 ...

  7. 大数据职业理解_到底什么是大数据,大数据职业的具体工作内容是什么?

    综合网络解释加上自己的理解给出了大数据的定义. 大数据就是数据规模达到海量级.极快的速度流转.数据类型和来源多种多样.价值密度低而且能够反映事物真实性的数据就是大数据. 大数据的工作内容包括以下几个方 ...

  8. 运维工程师的日常工作内容

    第一式.监控报警报表 ①没有监控就是不知己,不知己每战必殆. ②没有报警就是不能兼听,不兼听就不明. ③没有报表,反正Leader不高兴,其他的也没啥吧,毕竟像杰夫·贝佐斯与张小龙这样的Leader很 ...

  9. 数据科学工作者(Data Scientist) 的日常工作内容包括什么?

    作者:阿萨姆 众所周知,数据科学是这几年才火起来的概念,而应运而生的数据科学家(data scientist)明显缺乏清晰的录取标准和工作内容.即使在2017年,数据科学家这个岗位的依然显得" ...

最新文章

  1. (转载)文件系统与数据库系统的区别
  2. TS流的解码过程-ES-PES-DTS-PTS-PCR
  3. 【Java】6.3 类成员
  4. python词云cannot open resource_centos flask验证码pil提示OSError: cannot open resource,问题解决方法...
  5. 【业务知识】数字档案馆建设内容
  6. php 截取音频文件后缀名,使用PHP从音频流中提取音轨信息
  7. mysql导出数据意义_11、mysql导出数据
  8. 学会这些 Python 美图技巧,就等着女朋友夸你吧
  9. 使用Linux,Python和Raspberry Pi酿造啤酒
  10. HTML连接共享文件,怎么连接共享文件夹
  11. learning hmm
  12. (转载)排序六 堆排序
  13. 对冲基金表现大盘点(二):Citadel
  14. 双人成行本地安装X360ce模拟手柄教程xpadder手柄模拟键盘鼠标
  15. 精英模具设计师的“葵花宝典”
  16. Kotlin back field
  17. 易语言服务器调试输出为假,跟我入门易语言 7 调试输出与输出调试文本
  18. 计算机网络——分层的体系结构(OSI模型/五层协议栈)
  19. 去掉迅雷右侧内置浏览器
  20. 程序员的幽默笑话(深意爆笑)

热门文章

  1. 全国大学生智能汽车竞赛图像采集处理上位机开源!
  2. nginx-rtmp 的部署
  3. 开关电源spice仿真与实用设计_十年电源研发工程师的10条开关电源设计实用经验...
  4. Java后端开发技术栈
  5. Java三兄弟之继承
  6. uni-app【判断手机是否安装微信QQ】
  7. NSDate 农历节日
  8. 帝国时代3 怎样旋转建筑物
  9. A40I构建编译应用程序的SDK环境
  10. Python | 蓝桥杯进阶第四卷——图论