大数据工程师微职位学习分享
随着各行各业的数据量快速增长,无论是从对数据的存储、分析、处理和挖掘等方面提出了越来越高的要求。IT行业正在逐渐向“DT”行业转变,未来是以数据为驱动的。所以我认为大数据是未来一个主流方向,了解和学习大数据对我们以后的工作和生活都有一定帮助。
近期我个人学习了大数据工程师微职位这门课,并且已经通过了所有的考核。下面切入正题,分享一下我的学习心得,因为篇幅关系,不涉及具体知识点。
因为这门课是偏大数据分析的,基本上不涉及大数据组件的开发,所以这门课撇开了冗长的java课程。另外,因为涉及到大数据平台的搭建,需要一定的Linux基础,而这部分基础其实可以快速掌握,因此不需要说系统地学完一整套的Linux之后才开始学大数据。当然,如果本身有java或者oracle的基础的话,学起来是有一定的效率加成的。
1.大数据平台搭建。我们可以重点掌握Linux的内存结构是怎么运作的,可以和jvm的特性结合起来。一些文件系统的相关命令参数要熟知,后面可以类比于HDFS。另外,Linux环境变量加载顺序和时间配置也需要掌握。
2.MapReduce。大家可以了解它的计算框架,比如MapReduce和YARN的资源调度和处理过程是怎样的,如何去执行一个MapReduce程序,以及reducer和partitioner等等这些中间过程做了什么动作。
3.HDFS。有必要去弄明白HDFS分布式文件系统的架构,搞清楚数据和元数据的关系以及安全模式,要去掌握一下HDFS+zookeeper实现HA的方式。hadoop集群的搭建,包括系统准备与初始化
、硬件的选择、参数配置、集群故障的诊断等,最后可以了解一下HDFS组件的优化。
4.Hbase。可能很多企业不会具体用到Hbase,而这个要视具体场景而定。我们可以先系统的学习概念和一些基础的操作,同时了解NoSQL以及分布式数据库的数据模型以及特性,和一些典型应用场景。
5.Flume和Kafka。流式计算我们听得比较多了,而可能并不清楚具体内容。这里我们可以去了解流式计算的计算框架,通过实例我们可以比较容易明白flume和kafka如何一起配合来实现一个应用日志实时分析系统,同时我们在学习spark streaming的时候也可以去类比和Storm/Flink真正的流式计算的区别在哪里,应用场景和各自的优缺点是什么。
6.Hive。了解一下hive的产生动机。和传统sql语句使用上的对比。hive的函数有哪些,有哪些复杂数据类型。怎么使用hive进行查询和分析,比如创建库表,怎么将hdfs上的数据load到hive里面查看,怎么通过sqoop将mysql的数据导入到hive表中等等。需要掌握分区表怎么使用,怎么去优化和扩展hive的使用。
7.spark。了解spark sql的出现动机,spark背后的RDD原理。单机版和集群版的部署。RDD、DataFrame和DataSet的关系以及如何演变的。可以重点关注spark程序的运行流程,包括并行处理和数据本地化的概念。最后要掌握spark性能优化的常用方法广播变量和累加器。
8.数据科学和机器学习。这里还是需要一定的统计学、概率论、线性代数等数学基础。可以掌握机器学习里面的3C,推荐系统的原理等,如何通过spark的组件spark Mlib去辅助推荐系统等。这里你会真切感受到学好数学多么地重要...
建议大家边学习边做笔记,要不然知识点太分散不容易记住。然后演示中的操作自己多动手实践,毕竟数据分析还要多动手才能巩固。另外,很多知识点的修行还要靠个人的持续才行,毕竟更新速度都比较快,不能完全依赖老师的讲解,最好是去多去看看官方文档,多了解新旧特性和应用场景。
写得比较粗糙,希望能给大家的学习带来那么一点儿的助攻~最后,祝大家学习完这门课程都能有所收获~~
转载于:https://blog.51cto.com/battosai/1962958
大数据工程师微职位学习分享相关推荐
- 做为一名大数据新手,如何成为大数据工程师?附上学习路线
这几年来大数据非常的热门,到处都有大数据分析的演讲. 演讲内容通常是宣传各种大数据分析成功的案例. 但实际上大数据该怎么做呢? 大部份的讨论似乎都仅止于怎么搜集大量的数据, 然后用个工具(hadoop ...
- 做大数据工程师,需要学习什么?
一.大数据方向工作介绍 大数据方向的工作目前分为三个主要方向: 大数据工程师 数据分析师 大数据科学家 其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的方向吧) 二.大数据工程师的 ...
- 大数据工程师学习计划
申明:本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学习路径,不适用于大数据工程师的进阶学习,也不适用于零编程基础的同学. 前言 一.背景介绍 本人目前是一名大数据工程师,项目 ...
- 大数据工程师学习路线
转载来源:https://blog.csdn.net/GitChat/article/details/78341484 申明: 本文旨在为普通程序员(Java程序员最佳)提供一个入门级别的大数据技术学 ...
- 当我说要做大数据工程师时他们都笑我,直到三个月后……
本文来自作者 孫啟誠 在 GitChat 上分享「三个月大数据工程师学习计划」,「阅读原文」查看交流实录 「文末高能」 编辑 | 花轮同学 申明: 本文旨在为普通程序员(Java程序员最佳)提供一个入 ...
- 当我说要做大数据工程师时他们都笑我,直到三个月后……转
GitChat 作者:Fickr孫啟誠 原文: 三个月大数据研发学习计划实战解析 关注微信公众号:「GitChat 技术杂谈」 一本正经的讲技术 [不要错过文末彩蛋] 申明: 本文旨在为普通程序员 ...
- 大数据工程师工作笔记之集群节点准备
序 大数据工程师工作笔记系列分享 2020,成为更好的自己 01 Linux 系统网络配置 在公司中,一般来说,大数据集群是不能上网的,这就需要一个跳板机,将需要的组件传到大数据集群中离线安装就可以了 ...
- 当我说转行大数据工程师时,众人笑我太疯癫,直到四个月后......
[不要错过文末彩蛋] 申明: 本文旨在为[大数据自学者|大数据专业学生|工资低的程序员(Java/Python等)]提供一个从入门到入职的的大数据技术学习路径,不适合5年以上大数据工程师的进阶学习. ...
- 小白成为大数据工程师 需掌握哪些知识技能
小白成为大数据工程师 需掌握哪些知识技能 [导语]在大数据学习当中,关于打基础的部分,一直以来都是大家非常重视的,基础打好了,才能真正在后续的发展当中受益,更快地成长起来.作为大数据行业小白,想要成为 ...
最新文章
- windows根据端口号找进程
- 常用系统分析监控工具
- python课堂笔记手抄图片_超简单又漂亮的手抄报图片
- 服了,为什么100M宽带还这么卡?
- SQL注入到EXP编写
- maven系列一:pom.xml文件详解
- 第三章 阴阳的工作机制(1)
- 什么是Brouter?
- 浅入浅出 Android 安全:第四章 Android 框架层安全
- 打脸!《陈情令》付费资源遭泄漏 腾讯视频说好的技术保障呢?
- 命令行管理windows服务器角色
- 安装logstash5.4.1,并使用grok表达式收集nginx日志
- C++初学之 3. ASCII数值的应用(大小写变换)
- MarkDown编辑器中数学公式与符号-LaTeX 各种数学命令,符号
- 达梦数据库update关联更新改造
- 如何在OpenAI创建一个api key(chatgpt)?
- appstore 屏幕快照_Windows 8屏幕快照之旅:您可能想知道的一切
- springboot选择题、判断题
- 振弦采集模块针脚接口详细说明
- dp交换机命令_思科路由器、交换机命令集
热门文章
- 用户登录程序--绘制--遍历窗口
- BZOJ3442: 学习小组
- 可适配平板、手机的Web开发方式
- Vue过滤器_使用过滤器进行数据格式化操作---vue工作笔记0015
- Seata术语_以及工作原理---微服务升级_SpringCloud Alibaba工作笔记0057
- K8S_Google工作笔记0001---K8S学习过程梳理
- SpringCloud工作笔记047---FastJson解析多级JSON_FastJson解析嵌套JSON_FastJson对于JSON格式字符串、JSON对象及JavaBean之间的相互转换
- 小程序php支付,前后端分离
- CreateThread()使用实例
- zeromq+python安装手册