一,什么是大数据?

    大数据是一个描述大量高速,复杂和可变数据的术语,需要先进的技术来实现信息的捕获,存储,分发,管理和分析。大数据包含四个特性(4v),体量(Volume)、速度(Velocity)、多样性(Variety)、真实性(Variety)。

  • 体量(Volume):数据每天源源不断地从不同的数据源产出,比如社交平台、用户日志、运营商日志等数据。
  • 速度(Velocity):数据生成,分析,移动的速度。
  • 多样性(Variety):数据来自于不同的数据源的多种格式,通过组合的方式让数据形成有意义的输出。
  • 真实性(Variety):真实性定义了数据的输入和输出正确性,数据的输入保证数据尽可能的完整,也可以是一个可接受的误差精度的输入,数据输出,通过对数据进行加工处理,分析得到的高精度的估算结果,而非100%正确的值。

二、什么是Hadoop?

  • Apache Hadoop 是一个可靠的可伸缩的开源的分布式计算软件
  • Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。
  • 它被设计成从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。
  • 本身的设计目的是在应用层检测和处理故障,而不是依赖硬件来提供高可用性,因此在计算机集群之上提供高可用性服务。

三、OLAP和OLTP的区别

  • 联机分析处理 OLAP(On-LineAnalytical Processing):是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

  • 联机事务处理 OLTP((on-line transaction processing):P是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。

四、Hadoop Architecture(hadoop架构)

   Hadoop Common: (Hadoop公共框架):

  • Common Utilities that supports all other modules. (支持所有其他模块的Common Utilities)

   Hadoop Distributed File System (HDFS):

  • File system that spans all the nodes in a Hadoop cluster for data storage. – Links the file systems on local nodes to make them into one big file system. (跨越Hadoop集群中所有节点以进行数据 存储的文件系统,链接本地节点上的文件系统,使它们成为一个大文件系统)

Hadoop MapReduce:

  • Core computing framework available since Hadoop 1.x (自Hadoop 1.x以来可用的核心计算框 架)
  • 1.x版本的mapreudce需要负责处理业务逻辑,还要负责资源管理和任务调度

Hadoop YARN: (资源管理器):

  • New distributed processing framework on Hadoop 2.x. (Hadoop 2.x上的新分布式处理框架)
  • Addresses multiple limitations of MR 1.0 (解决了MR 1.0的多种限制)
  • 2.x资源管理和任务调度由YARN来管理
  • hadoop2.x版本出现了新的应用模型Tez

Hadoop Ecosystem: (hadoop生态圈):

  • Open-source Apache projects (开源的Apache项目集合)

纠错码技术

  • 纠删码技术(Erasure coding)简称EC,是一种编码容错技术。最早用于通信行业,数据传输中的数 据恢复。它通过对数据进行分块,然后计算出校验数据,使得各个部分的数据产生关联性。当一部分数 据块丢失时,可以通过剩余R的数据块和校验块计算出丢失的数据块。

五、HDFS

   NameNode (NN)

  • Manages the File System's namespace/meta-data/file blocks (管理文件系统命名空间/元数据/文 件块)
  • Runs on 1 machine to several machines (在一台机器上运行到几台机器)

   Secondary NameNode (SNN)(了解)

  • Performs house keeping work so NameNode doesn’t (执行备份工作,因此NameNode不会)
  • Requires similar hardware as NameNode machine (需要与NameNode机器类似的硬件)
  • Not used for high-availability – not a backup for NameNode (不用于高可用性 - 不是NameNode的 备份)

   DataNode (DN)

  • Stores and retrieves data blocks (存储和处理数据)
  • Reports to NameNode (报告给NameNode)
  • Runs on many machines (在许多机器上运行)

六、HDFS组件(Hadoop (HDFS) Components 组件)

   Client

  • User/App interface to interact with cluster, DN (用户/应用程序界面与群集,DN进行交互)

   Namespace

  • Files/Directories - Same to the regular file systems split into blocks (文件/目录 - 与拆分为块的 常规文件系统相同)

   Blocks

  • Default: 64M (v1); 128M (v2)
  • Blocks meta data kept in NN – Small files issue (阻止在NN中保存的元数据 - 小文件问题)

   Block Storage:

  • Replications

    • Default 3 and rebalanced for new added nodes (默认值为3,并为新添加的节点重新 平衡)
    • 1st replica on the local. 2nd on the local but different node. 3rd on the different rack(当 地的第一个复制品。 在本地但不同的节点上排名第二。 第三个在不同的机架上)

七、Hadoop High Availability 高可用性

  • HDFS联合通过在多个分隔的NameNode上对文件系统命名空间进行分区。
  • Active and Standby NNs share the storage for edit logs; (共享存储以进行编辑日志)

大数据概况以及Hadoop生态系统相关推荐

  1. 大数据概况及Hadoop生态系统总结

    觉得有帮助的,请多多支持博主,点赞关注哦~ 文章目录 大数据概况及Hadoop生态系统 1.大数据概念理解 1.1.什么是大数据? 1.2.大数据特征(4V)? 1.3.大数据应用场景? 1.4.大数 ...

  2. 大数据入门(Hadoop生态系统)

    Hadoop生态系统为大数据领域提供了开源的分布式存储和分布式计算的平台,这一章我们进行Hadoop生态系统的入门学习,介绍其中分布式文件系统HDFS.分布式资源调度YARN.分布式计算框架MapRe ...

  3. ASP.NET + SqlSever 大数据解决方案 PK HADOOP

    ASP.NET + SqlSever 大数据解决方案 PK HADOOP 参考文章: (1)ASP.NET + SqlSever 大数据解决方案 PK HADOOP (2)https://www.cn ...

  4. 《Spark与Hadoop大数据分析》——1.2 大数据科学以及Hadoop和Spark在其中承担的角色...

    1.2 大数据科学以及Hadoop和Spark在其中承担的角色 数据科学的工作体现在以下这两个方面: 要从数据中提取其深层次的规律性,意味着要使用统计算法提炼出有价值的信息.数据产品则是一种软件系统, ...

  5. hadoop大数据开发基础_Java大数据开发(三)Hadoop(2)经典的Hadoop

    点击蓝字关注我 1 什么是大数据 1.Hadoop是一个由Apache基金会所开发的分布式系统基础架构 2.主要解决,海量数据的存储和海量数据的分析计算问题. 3.广义上来说,HADOOP通常是指一个 ...

  6. 大数据第一季--Hadoop(day5)-徐培成-专题视频课程

    大数据第一季--Hadoop(day5)-1777人已学习 课程介绍         大数据第一季--Hadoop(day5) 课程收益     大数据第一季--Hadoop(day5) 讲师介绍   ...

  7. 大数据技术之Hadoop(MapReduce)

    大数据技术之Hadoop(MapReduce) (作者:大数据研发部) 版本:V1.4 第1章MapReduce入门 map 计算 reduce 规约 1.1 MapReduce定义 Mapreduc ...

  8. 大数据_07 【hadoop HDFS的shell命令操作】

    大数据_07 [hadoop HDFS的shell命令操作] 01 基本语法 02 常用普通命令实操 03 HDFS常用高级命令 04 HDFS适用场景 05 HDFS不适用场景 06 hdfs的安全 ...

  9. 大数据基础之Hadoop(三)—— MapReduce

    作者:duktig 博客:https://duktig.cn (文章首发) 优秀还努力.愿你付出甘之如饴,所得归于欢喜. 本篇文章源码参看:https://github.com/duktig666/b ...

最新文章

  1. Oracle大数据量分页通用存储过程
  2. 谷歌浏览器扩展开发笔记
  3. 真执着 卡巴斯基和Palo Alto找到了BlackEnergy和ExPetr的相似代码
  4. 【转】RAX,eax,ax,ah,al 关系
  5. OpenCV——读取视频文件并写入文件
  6. linux postgresql默认安装目录,postgresql - 三种安装方式(示例代码)
  7. Linux——好用的一些命令(一)(保持更新)
  8. capsule 安装_Capsule Calendar
  9. easyUI.checkForm
  10. 学python编程好就业吗_学好python编程就业真的没有压力吗?
  11. HDU 1257 最少拦截系统 简单DP
  12. 如何学习工业机器人技术
  13. 企业OA管理系统需具备哪些功能?
  14. 电脑怎么既录屏又录人脸?分享2个宝藏方法,轻松学会
  15. 用NDK-r25编译libpng
  16. BGP路由协议的那些事?(上)
  17. C# 使用WebSocket创建聊天室
  18. 使用mdadm创建raid mdadm命令详解_php_sir_新浪博客
  19. 灵魂画手之——天堂鸟
  20. 计算机专业要考什么证书?

热门文章

  1. 【HoloLens2之Development Console 窗口关闭】
  2. 服务级别协议(SLA)与运行水平协议(OLA)
  3. 使用微服务/ API网关(如Solo Gloo)公开在AWS EKS中运行的微服务
  4. 30 秒看懂,如何建立一个免费的个人主页
  5. 网络安全等级保护定级指南 范围
  6. C语言完整代码实现:二叉树的先序遍历、中序遍历、后序遍历
  7. 计算机学什专业,计算机专业到底学什么?
  8. 移动应用Kony Solutions并购Sky Technologies
  9. 【抽象代数】素理想、极大理想、唯一析因环、主理想整环、欧几里得环
  10. word标尺灰色_如何在Microsoft Word中更改标尺测量单位