目录:

1.典型需求

2.40K以上专家必备技能

3.项目中的迷宫场景部件制作

4.Hadoop生态核心原理

一、典型需求(互联网公司)

二、40K以上专家必备技能

三、大数从业者角色分类

四、Hadoop生态核心原理

1.大数据整体画像

  • 数据流程

  • 数据技术

2.大数据平台整体画像

  • 大数据平台逻辑划分

数据相关的工具、产品和技术:比如批量数据采集传输的 Sqoop 、离线数据处理的Hadoop 和Hive 、实时流处理的 Storm和 Spark 以及数据分析的R语言等。

数据资产:不仅包含公司业务本身产生和沉淀的数据,还包括公司运作产生的数据(如财务、行政),以及从外界购买 交换或者爬虫等而来的数据等。

数据管理:有了数据工具,也有了数据资产,但是还必须对它们进行管理才能让数据产生最大价值并最小化风险,因此数据平台通常还包括数据管理的相关概念和技术,如数据仓库、数据建模、 数据质量、数据规范、 数据安全和元数据管理等。如果你对大数据开发感兴趣,想系统学习大数据的话,可以加入大数据技术学习交流扣扣君羊:522189307

  • 从数据处理的时效性划分

(1)离线数据平台。

(2)实时数据平台。

  • 和离线数据平台相关的技术

Hadoop 、Hive 、数据仓库、 ETL 、维度建模、 数据逻辑分层等。

  • 离线数据平台的整体架构

3.Hadoop 核心原理

(1)系统简介

  • 正是 Hadoop 开启了大数据时代的大门,而大数据的发展也是和Hadoop 发展密不可的,甚至从某些方面来说大数据就是 Hadoop 。

  • Hadoop 是一种分析和处理大数据的软件平台,是一个用 Java 语言实现的 Apache 的开源软件框架,在大量计算机组成的集群中实现了对海量数据的分布式计算。

  • Hadoop 采用 MapReduce 分布式计算框架,根据 GFS 原理开发了 HDFS(分布式文件系统),并根据 BigTable 原理开发了 HBase 数据存储系统。

  • Yahoo、Facebook、Amazon,以及国内的百度、阿里巴巴等众多互联网公司都以 Hadoop 为基础搭建了自己的分布式计算系统。

  • Hadoop 是一个基础框架,允许用简单的编程模型在计算机集群上对大型数据集进行分布式处理。

  • 用户可以在不了解分布式底层细节的情况下,轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有效、高容错等特性让 hadoop 成为最流行的大数据分析系统。

(2)Hadoop 生态里的最核心技术

  • HDFS:Hadoop 分布式文件系统,它是Hadoop 的核心子项目。

  • MapReduce :Hadoop 中的 MapReduce 是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并能可靠容错地并行处理 TB 级别的数据集。

  • Hive :是建立在 Hadoop 体系架构上的一层 SQL抽象,使得数据相关人员使用他们最为熟悉的 SQL 语言就可以进行海量数据的处理、分析和统计工作,而不是必须掌握 Java 等编程语言和具备开发MapReduce 程序的能力。HiveSQL 际上先被 SQL 解析器进行解析然后被 Hive 框架解析成一个MapReduce 可执行计划,并按照该计划生成 MapReduce 任务后交给 Hadoop 集群处理。

(3)HDFS

  • 文件系统

文件系统是操作系统提供的磁盘空间管理服务,该服务只需要用户指定文件的存储位置及文件读取路径,而不需要用户了解文件在磁盘上是如何存放的。对于我们编程人员也是这样的。

但是当文件所需空间大于本机磁盘空间时,应该如何处理呢?

加磁盘,但是加到一定程度就有限制了。

加机器,即用远程共享目录的方式提供网络化的存储,这种方式可以理解为分布式文件系统的雏形,它可以把不同文件放入不同的机器中,而且空间不足时可继续加机器,突破了存储空间的限制。

  • 传统的分布式文件系统---架构

  • 传统的分布式文件系统---访问过程

  • 传统的分布式文件系统带来的问题

各个存储结点的负载不均衡,单机负载可能极高。例如,如果某个文件是热门文件,则会有很多用户经常读取这个文件,这就会造成该文件所在机器的访问压力极高。

数据可靠性低。如果某个文件所在的机器出现故障,那么这个文件就不能访问了,甚至会造成数据的丢失。

文件管理困难。如果想把一些文件的存储位置进行调整,就需要查看目标机器的空间是否够用,并且需要管理员维护文件位置,在机器非常多的情况下,这种操作就极为复杂。

  • HDFS 的基本原理

  • HDFS 的体系结构(一主多从)

  • HDFS 的文件读取

  • HDFS 的文件写入

  • HDFS 异常处理之NameNode

(1) 两个核心文件

FsImage文件:

a.FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据

b.FsImage文件没有记录块存储在哪个数据节点。而是由名称节点把这些映射保留在内存中,这个信息单独在内存中一个区域维护,当数据节点加入HDFS集群时,数据节点会把自己所包含的块列表告知给名 称节点,此后会定期执行这种告知操作,以确保名称节点的块映射是最新的

EditLog文件:

操作日志文件EditLog中记录了所有针对文件的创建、删除、重命名等操作

(2)名称节点的启动

在名称节点启动的时候,它会将FsImage文件中的内容加载到内存中,之后再执行 EditLog文件中的各项操作,使得内存中的元数据和实际的同步,存在内存中的元数据支持客户端的读写操作。

接收所有datanodes上的文件块信息汇报,退出安全模式。

(3)名称节点的问题

名称节点运行期间,HDFS的所有更新操作都是直接写到EditLog中,久而久之,EditLog件将会变得很大,这对名称节点运行没有什么明显影响的,但是,名称节点重启的时候,需要先将FsImage里面的所有内容映像到内存中,然后再一条一条地执行EditLog中的记录,当EditLog文件非常大的时候,会导致名称节点启动操作非常慢,而在这段时间内HDFS系统处于安全模式,一直无法对外提供写操作,影响了用户的使用。

名称节点坏掉了。

(4)解决方案之一

(5)解决方案之二(Hadoop HA)

(6)HDFS 异常处理之DataNode

  • 数据节点出错

每个数据节点会定期向名称节点发送“心跳”信息,向名称节点报告自己的状态 ,当数据节点发生故障,或者网络发生断网时,名称节点就无法收到来自一些数据节点的心跳信息,这时,这些数据节点就会被标记为“宕机”,节点上面的所有数据都 会被标记为“不可读”,名称节点不会再给它们发送任何I/O请求 这时,有可能出现一种情形,即由于一些数据节点的不可用,会导致一些数据块的 副本数量小于冗余因子 ,名称节点会定期检查这种情况,一旦发现某个数据块的副本数量小于冗余因子,就 会启动数据冗余复制,为它生成新的副本。HDFS和其它分布式文件系统的最大区别就是可以调整冗余数据的位。

  • 数据出错

客户端在读取到数据后,会采用md5等对数据块进行校验,以确定读取到正确 的数据 ,如果校验出错,客户端就会请求到另外一个数据节点读取该文件块,并且向名称节点报告这个文件块有错误,名称节点会定期检查并且重新复制这个块 。

(7)其他

  • 优点

a.存储非常大的文件

b.采用流式的数据访问方式

c.运行于普通商用机器

d.高容错、高可靠性

  • 不适合的应用场景:

a.低延时的数据访问

b.大量小文件的情况

c.多方读写,需要任意的文件修改

(8)扩展 GFS简介(Google File System)

谈到Hadoop的起源,就不得不提Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础!

(9)问题

1、为什么不适用于处理大量小文件?

2、HDFS的Block为什么这么大?

3、读取或者写入文件,如果不调用Close方法关闭文件流会咋样?

大数据开发工程师需要具备哪些技能?相关推荐

  1. 华为、蚂蚁金服等都在招聘的大数据开发,需要具备哪些技能

    今日给大伙儿详细介绍"最受欢迎"的职位大数据开发技术工程师的规定. 往往说受欢迎关键是应用场景2个缘故,一由于许多应届毕业生或是想转到大数据行业的同学们,全是期待从业"大 ...

  2. 大数据开发工程师必备技能有哪些?

    大数据开发工程师必备技能有哪些?随着全行业数字化转型和新基建时代的到来,对技术人才提出了更高的要求.不管是面试还是实际工作过程中,数据工程师要时时刻刻面对这些层出不穷的技术演进. 随着数据的爆发式增长 ...

  3. 大数据开发工程师是做什么的?

    大数据开发工程师要负责数据仓库建设.ETL开发.数据分析.数据指标统计.大数据实时计算平台及业务开发.平台建设及维护等工作内容.熟练掌握数据仓库.hadoop生态体系.计算及二次开发.大数据平台工具的 ...

  4. 一篇文章带你了解2018 大数据开发工程师必备那些技能

    你好,成为一名大数据开发工程师,你需要具备的技能比较多,具体的,可以参看下面的这些点. Java 大家都知道Java的方向有JavaSE.JavaEE.JavaME,学习大数据要学习那个方向呢?只需要 ...

  5. 大数据开发工程师必备那些技能

    成为一名大数据开发工程师,你需要具备以下这些技能 Java 大家都知道Java的方向有JavaSE.JavaEE.JavaME,学习大数据要学习那个方向呢?只需要学习Java的标准版JavaSE就可以 ...

  6. python 大数据开发工程师_大数据系列之大数据开发工程师

    继续介绍大数据系列岗位的要求,今天是"最热门"的岗位大数据开发工程师,之所以说热门主要是基于2个原因,一是因为很多应届生或者想转入大数据行业的同学,都是期望从事"大数据开 ...

  7. 数据库开发转行大数据开发工程师怎么样?

    数据库开发转行大数据开发工程师怎么样?大数据的方向的工作有大数据运维工程师.大数据开发工程师.数据分析.数据挖掘.架构师等.有工作经验想转行大数据开发主要考察基础.学习能力.解决问题的能力.想转转行大 ...

  8. 大数据开发工程师前景如何?

    1.大数据开发前景如何,企业对大数据开发的需求到底有多大. 大数据开发,是一个刚刚开始发展的行业,而且技术经常更新,所以大数据的发展会长期发展,但要求程序员要跟着行业发展不断学习进步.一个新技术的出现 ...

  9. 阿里p6的大数据开发工程师都要学什么?

    又涨啦!据第三方数据统计,2020年9月全国招收程序员352733人,9月全国程序员平均工资14469元,相比8月的14401元涨了68元.但不少人却说薪资根本没有这么高,其实虽然都是程序员薪资差别还 ...

最新文章

  1. 没有iPhone SE2,苹果发布了新iPad
  2. python怎么安装matplotlib-在python3.7下怎么安装matplotlib
  3. python使用方法-在Python中使用next()方法操作文件的教程
  4. ubuntu下配置bind9为局域网的DNS服务器
  5. mysql主从切换gtid不一致_解决mysql使用GTID主从复制错误问题
  6. 动态规划矩阵连乘问题
  7. rfid 标签内存_RFID有源与无源的区别与联系
  8. oem718d 基准站设置_千寻cors账号参数设置完成,RTK手簿显示浮动或单点伪距,能不能进行测量?...
  9. LeetCode简单题目(二叉树相关)(#100 #101 #104 #107 #108 #110 #111 #112)-8道
  10. [WP8.1UI控件编程]Windows Phone XAML页面的编译
  11. 读coco数据集的代码接口了解segmentation的处理方法
  12. 【读书笔记】之【瞬变】
  13. 类iGoogle实现参考资料
  14. tolua学习资料汇总贴
  15. 德国汉诺威地面材料展览会搭建就找上海宽创国际
  16. android将图片转成字符串,再将字符串转成图片
  17. 铁流:兆芯处理器媲美国际主流水准?言过其实
  18. 软件测试需要会python吗_真实揭秘90后职业新选择:25岁刚入行软件测试,竟拿到这么多薪资……...
  19. 沭阳学爬虫03爬虫基本原理
  20. 多目标优化-测试问题及其Pareto前沿

热门文章

  1. ipad4使用教程 ipad mini使用技巧
  2. 荒野求生一直获取服务器信息,荒野求生各资源作用及获取方法
  3. 从SAP的核心优势看SAP四大战略成功的可能
  4. 华为云存储空间图库占比太大_终于知道为什么华为手机删了照片,存储空间还是不足了!...
  5. 弄错了会很尴尬的英文
  6. 连连看 算法 2013-12-29
  7. 产品上ref和lot是什么意思_试剂盒REF与LOT分别是什么意思
  8. python 爬虫斗图吧 多页图片
  9. modern cmake的概念剖析
  10. html代码点击复制微信号并自动打开微信添加好友