随着各行各业的数据量快速增长,无论是从对数据的存储、分析、处理和挖掘等方面提出了越来越高的要求。IT行业正在逐渐向“DT”行业转变,未来是以数据为驱动的。所以我认为大数据是未来一个主流方向,了解和学习大数据对我们以后的工作和生活都有一定帮助。

近期我个人学习了大数据工程师微职位这门课,并且已经通过了所有的考核。下面切入正题,分享一下我的学习心得,因为篇幅关系,不涉及具体知识点。

因为这门课是偏大数据分析的,基本上不涉及大数据组件的开发,所以这门课撇开了冗长的java课程。另外,因为涉及到大数据平台的搭建,需要一定的Linux基础,而这部分基础其实可以快速掌握,因此不需要说系统地学完一整套的Linux之后才开始学大数据。当然,如果本身有java或者oracle的基础的话,学起来是有一定的效率加成的。

1.大数据平台搭建。我们可以重点掌握Linux的内存结构是怎么运作的,可以和jvm的特性结合起来。一些文件系统的相关命令参数要熟知,后面可以类比于HDFS。另外,Linux环境变量加载顺序和时间配置也需要掌握。

2.MapReduce。大家可以了解它的计算框架,比如MapReduce和YARN的资源调度和处理过程是怎样的,如何去执行一个MapReduce程序,以及reducer和partitioner等等这些中间过程做了什么动作。

3.HDFS。有必要去弄明白HDFS分布式文件系统的架构,搞清楚数据和元数据的关系以及安全模式,要去掌握一下HDFS+zookeeper实现HA的方式。hadoop集群的搭建,包括系统准备与初始化

、硬件的选择、参数配置、集群故障的诊断等,最后可以了解一下HDFS组件的优化。

4.Hbase。可能很多企业不会具体用到Hbase,而这个要视具体场景而定。我们可以先系统的学习概念和一些基础的操作,同时了解NoSQL以及分布式数据库的数据模型以及特性,和一些典型应用场景。

5.Flume和Kafka。流式计算我们听得比较多了,而可能并不清楚具体内容。这里我们可以去了解流式计算的计算框架,通过实例我们可以比较容易明白flume和kafka如何一起配合来实现一个应用日志实时分析系统,同时我们在学习spark streaming的时候也可以去类比和Storm/Flink真正的流式计算的区别在哪里,应用场景和各自的优缺点是什么。

6.Hive。了解一下hive的产生动机。和传统sql语句使用上的对比。hive的函数有哪些,有哪些复杂数据类型。怎么使用hive进行查询和分析,比如创建库表,怎么将hdfs上的数据load到hive里面查看,怎么通过sqoop将mysql的数据导入到hive表中等等。需要掌握分区表怎么使用,怎么去优化和扩展hive的使用。

7.spark。了解spark sql的出现动机,spark背后的RDD原理。单机版和集群版的部署。RDD、DataFrame和DataSet的关系以及如何演变的。可以重点关注spark程序的运行流程,包括并行处理和数据本地化的概念。最后要掌握spark性能优化的常用方法广播变量和累加器。

8.数据科学和机器学习。这里还是需要一定的统计学、概率论、线性代数等数学基础。可以掌握机器学习里面的3C,推荐系统的原理等,如何通过spark的组件spark Mlib去辅助推荐系统等。这里你会真切感受到学好数学多么地重要...

建议大家边学习边做笔记,要不然知识点太分散不容易记住。然后演示中的操作自己多动手实践,毕竟数据分析还要多动手才能巩固。另外,很多知识点的修行还要靠个人的持续才行,毕竟更新速度都比较快,不能完全依赖老师的讲解,最好是去多去看看官方文档,多了解新旧特性和应用场景。

写得比较粗糙,希望能给大家的学习带来那么一点儿的助攻~最后,祝大家学习完这门课程都能有所收获~~

转载于:https://blog.51cto.com/battosai/1962958

大数据工程师微职位学习分享相关推荐

  1. 做为一名大数据新手,如何成为大数据工程师?附上学习路线

    这几年来大数据非常的热门,到处都有大数据分析的演讲. 演讲内容通常是宣传各种大数据分析成功的案例. 但实际上大数据该怎么做呢? 大部份的讨论似乎都仅止于怎么搜集大量的数据, 然后用个工具(hadoop ...

  2. 做大数据工程师,需要学习什么?

    一.大数据方向工作介绍 大数据方向的工作目前分为三个主要方向: 大数据工程师 数据分析师 大数据科学家 其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的方向吧) 二.大数据工程师的 ...

  3. 大数据工程师学习计划

    申明:本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学习路径,不适用于大数据工程师的进阶学习,也不适用于零编程基础的同学. 前言 一.背景介绍 本人目前是一名大数据工程师,项目 ...

  4. 大数据工程师学习路线

    转载来源:https://blog.csdn.net/GitChat/article/details/78341484 申明: 本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学 ...

  5. 当我说要做大数据工程师时他们都笑我,直到三个月后……

    本文来自作者 孫啟誠 在 GitChat 上分享「三个月大数据工程师学习计划」,「阅读原文」查看交流实录 「文末高能」 编辑 | 花轮同学 申明: 本文旨在为普通程序员(Java程序员最佳)提供一个入 ...

  6. 当我说要做大数据工程师时他们都笑我,直到三个月后……转

    GitChat 作者:Fickr孫啟誠  原文: 三个月大数据研发学习计划实战解析  关注微信公众号:「GitChat 技术杂谈」 一本正经的讲技术 [不要错过文末彩蛋] 申明: 本文旨在为普通程序员 ...

  7. 大数据工程师工作笔记之集群节点准备

    序 大数据工程师工作笔记系列分享 2020,成为更好的自己 01 Linux 系统网络配置 在公司中,一般来说,大数据集群是不能上网的,这就需要一个跳板机,将需要的组件传到大数据集群中离线安装就可以了 ...

  8. 当我说转行大数据工程师时,众人笑我太疯癫,直到四个月后......

    [不要错过文末彩蛋] 申明: 本文旨在为[大数据自学者|大数据专业学生|工资低的程序员(Java/Python等)]提供一个从入门到入职的的大数据技术学习路径,不适合5年以上大数据工程师的进阶学习. ...

  9. 小白成为大数据工程师 需掌握哪些知识技能

    小白成为大数据工程师 需掌握哪些知识技能 [导语]在大数据学习当中,关于打基础的部分,一直以来都是大家非常重视的,基础打好了,才能真正在后续的发展当中受益,更快地成长起来.作为大数据行业小白,想要成为 ...

最新文章

  1. windows根据端口号找进程
  2. 常用系统分析监控工具
  3. python课堂笔记手抄图片_超简单又漂亮的手抄报图片
  4. 服了,为什么100M宽带还这么卡?
  5. SQL注入到EXP编写
  6. maven系列一:pom.xml文件详解
  7. 第三章 阴阳的工作机制(1)
  8. 什么是Brouter?
  9. 浅入浅出 Android 安全:第四章 Android 框架层安全
  10. 打脸!《陈情令》付费资源遭泄漏 腾讯视频说好的技术保障呢?
  11. 命令行管理windows服务器角色
  12. 安装logstash5.4.1,并使用grok表达式收集nginx日志
  13. C++初学之 3. ASCII数值的应用(大小写变换)
  14. MarkDown编辑器中数学公式与符号-LaTeX 各种数学命令,符号
  15. 达梦数据库update关联更新改造
  16. 如何在OpenAI创建一个api key(chatgpt)?
  17. appstore 屏幕快照_Windows 8屏幕快照之旅:您可能想知道的一切
  18. springboot选择题、判断题
  19. 振弦采集模块针脚接口详细说明
  20. dp交换机命令_思科路由器、交换机命令集

热门文章

  1. 用户登录程序--绘制--遍历窗口
  2. BZOJ3442: 学习小组
  3. 可适配平板、手机的Web开发方式
  4. Vue过滤器_使用过滤器进行数据格式化操作---vue工作笔记0015
  5. Seata术语_以及工作原理---微服务升级_SpringCloud Alibaba工作笔记0057
  6. K8S_Google工作笔记0001---K8S学习过程梳理
  7. SpringCloud工作笔记047---FastJson解析多级JSON_FastJson解析嵌套JSON_FastJson对于JSON格式字符串、JSON对象及JavaBean之间的相互转换
  8. 小程序php支付,前后端分离
  9. CreateThread()使用实例
  10. zeromq+python安装手册