数分-理论-大数据2-Hadoop

(数据分析系列)

文章目录

  • 数分-理论-大数据2-Hadoop
    • 1知识点
    • 2具体内容
      • 2.1发展
      • 2.2简介
      • 2.3项目架构
      • 2.4安装应用
    • 参考

1知识点

  • 发展
  • 简介
  • 项目架构
  • 安装应用

2具体内容

2.1发展

  • Lucene:文本搜索的函数库,全文检索引擎
  • Nutch:建立在Lucene核心之上的网页搜索应用程序,加了网络爬虫和一些网页相关的功能
  • GFS(2003):google为存储海量搜索数据而设计的专用文件系统
  • NDFS(2004):分布式文件存储系统Nutch Distributed File System
  • MapReduce编程模型(2004):用于大规模数据集(大于1TB)的并行分析运算。
  • (2005年)Nutch搜索引擎实现MapReduce
  • Hadoop(2006,雅虎),Doug Cutting将NDFS和MapReduce进行了升级改造
  • BigTable,(2006,谷歌),分布式数据存储系统,一种用来处理海量数据的非关系型数据库。
  • HBase,在自己的Hadoop系统里面,引入了BigTable
  • 2008年1月,Hadoop成功上位,正式成为Apache基金会的顶级项目。2月,Yahoo宣布建成了一个拥有1万个内核的Hadoop集群,并将自己的搜索引擎产品部署在上面。7月,Hadoop打破世界纪录,成为最快排序1TB数据的系统,用时209秒。

2.2简介

1.概述

  • Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。
  • 跨平台,可部署在廉价的计算机集群
  • 核心是分布式文件系统HDFS(Hadoop Distributed File System)和 MapReduce。
    1. HDFS,面向普通硬件环境的分布式文件系统,具有较高的读写速度、很好的容错性和可伸缩性,支持大规模数据的分布式存储,其冗余数据存储的方式,很好地保证了数据的安全性。
    2. MapReduce是针对谷歌MapReduce的开源实现,允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,采用MapReduce来整合分布式文件系统上的数据,可保证分析和处理数据的高效性。

2.特性

  • 高可靠性:采用冗余数据存储方式,即使一个副本发生故障,其他副本也可以保证正常对外提供服务。Hadoop按位存储和处理数据的能力,值得人们信赖。
  • 高效性:作为并行分布式计算平台,Hadoop采用分布式存储和分布式处理两大核心技术,能够高效地处理PB级数据。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
  • 高可扩展性:Hadoop的设计目标是可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点。
  • 高容错性:采用冗余数据存储方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配。
  • 成本低:Hadoop采用廉价的计算机集群,成本较低,普通用户也很容易用自己的PC上搭建Hadoop运行环境。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,Hadoop是开源的,项目的软件成本因此会大大降低。
  • 运行在Linux平台上:Hadoop是基于Java语言开发的,可以较好地运行在Linux平台上。
  • 支持多种编程语言:Hadoop上的应用程序也可以使用其他语言编写,如C++。

3.应用现状
国内外,大型公司使用Hadoop集群成为趋势,并在Hadoop基础上提出了新的解决方案

2.3项目架构

  • Common:为Hadoop其他子项目提供支持的常用工具,它主要包括FileSystem、RPC和串行化库,它们为在廉价的硬件上搭建云计算环境提供了基本的服务,并为运行在该平台上的软件开发提供了所需的API
  • Avro:数据库序列化的系统
    • 提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC的功能和简单的动态语言集成功能
    • 代码生成器即不需要读写文件数据,也不需要使用或者实现RPC协议,它只是一个可选的对静态类型语言的实现
    • Avro系统依赖于模式,客户端和服务器端通过握手协议进行模式交换
  • HBase:提供高可靠性、高性能、可伸缩、实时读写和分布式的列式数据库,一般采用HDFS作为其底层数据存储。
    • 适合于非结构化数据存储的数据库
    • 基于列而不是基于行的存储模式
    • HBase表是疏松的,用户可以给行定义各种不同类型的列
    • 主要用于需要随机访问、实时读写的大数据(Big Data)
  • Pig:数据流语言和运行环境,适合于使用Hadoop和MapReduce的平台来查询大型半结构化数据集。
    • 接近结构化查询语言(SQL)的接口
    • Pig要比MapReduce具有明显的优势,前者只需要编写一个简单的脚本在集群中自动并行处理与分发,而后者则需要编写一个单独的MapReduce应用程序
    • Pig是一个对大型数据集进行分析、评估的平台,最突出的优势是它的结构能够经受住高度并行化的检验,这个特性使得它能够处理大型的数据集。Pig的底层由编译器组成,运行的时候会产生一些MapReduce程序序列。
  • Sqoop:改进数据的互操作性,主要用来在Hadoop和关系数据库之间交换数据
    • 通过JDBC(Java DataBase Connectivity)与关系数据库进行交互
  • Chukwa:开源的数据收集系统,用于监控和分析大型分布式系统的数据
    • 集成了Hadoop的可扩展性和健壮性,通过HDFS来存储数据,并依赖MapReduce任务处理数据
  • Zookeeper:为分布式应用所涉及的开源协调服务
    • 为用户提供同步、配置管理、分组和命名等服务,减轻分布式应用程序所承担的协调任务
    • 目录树结构

2.4安装应用

1.实验:在Ubuntu安装Hadoop

  1. 创建Hadoop用户
  2. 安装Java
  3. 设置SSH登录权限。
  4. 单机安装配置。
  5. 伪分布式安装配置

2.补充

  1. 集群模式安装
  2. 集群模式安装节点

参考

https://shenhao-stu.github.io/Big-Data/#/

数分-理论-大数据2-Hadoop相关推荐

  1. 数分-理论-大数据3-HDFS

    数分-理论-大数据3-HDFS(分布式文件系统) (数据分析系列) 文章目录 数分-理论-大数据3-HDFS(分布式文件系统) 1知识点 2具体内容 2.1背景 2.2简介 2.3体系结构 2.4存储 ...

  2. 大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍

    Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...

  3. GitChat · 大数据 | 一步一步学习大数据:Hadoop 生态系统与场景

    目录(?)[-] Hadoop概要 Hadoop相关组件介绍 HDFS Yarn Hive HBase Spark Other Tools Hadoop集群硬件和拓扑规划 硬件配置 软件配置 Hado ...

  4. 爱奇艺数据中台建设组合拳:日志投递、统一数仓、大数据平台

    本文根据马金韬老师在[deeplus直播第233期]线上分享演讲内容整理而成.首发于DBAplus社群,经授权转载(文末有获取本期PPT&回放的方式,不要错过) 马金韬 爱奇艺数据中台负责人 ...

  5. 大数据与Hadoop有什么关系?大数据Hadoop入门简介

    学习着数据科学与大数据技术专业(简称大数据)的我们,对于"大数据"这个词是再熟悉不过了,而每当我们越去了解大数据就越发现有个词也会一直被提及那就是--Hadoop 那Hadoop与 ...

  6. 大数据和Hadoop平台介绍

    大数据和Hadoop平台介绍 定义 大数据是指其大小和复杂性无法通过现有常用的工具软件,以合理的成本,在可接受的时限内对其进行捕获.管理和处理的数据集.这些困难包括数据的收入.存储.搜索.共享.分析和 ...

  7. 大数据 python hadoop_大数据与Hadoop

    1. 大数据简介 1.1 大数据的由来 随着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在不断的加快,随着互联网.物联网建设的加快,信息更是爆炸式增长,收集.检索 ...

  8. 打怪升级之小白的大数据之旅(四十一)<大数据与Hadoop概述>

    打怪升级之小白的大数据之旅(四十) Hadoop概述 上次回顾 好了,经过了java,mysql,jdbc,maven以及Linux和Shell的洗礼,我们终于开始正式进入大数据阶段的知识了,首先我会 ...

  9. Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

    一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此 ...

  10. hadoop 传感器数据_大数据时代Hadoop的本质,你有过认真了解吗?

    ​ ​除非你过去几年一直隐居,远离这个计算机的世界,否则你不可能没有听过Hadoop,全名Apache Hadoop,是一个在通用低成本的硬件上处理存储和大规模并行计算的一个开源框架,Hadoop本质 ...

最新文章

  1. 自动类型转换和强制类型转换
  2. 人人都能看懂的 6 种限流实现方案!(纯干货)
  3. 解决WinCE自动挂起的问题
  4. Dell sc1425安装ESXi 5不成功
  5. PHP+Mysql高仿百度知道签到源码演示与下载
  6. js 使用多态替换条件语句_用多态和组成替换多个条件
  7. [Asp.Net Core] Blazor Server Side 项目实践 - 切换页面时保留状态
  8. 一位Erlang程序员的自白
  9. 手动指定 main 函数作为入口libvcruntimed.lib
  10. Python入门学习—元组/字符串(FishC)
  11. 莫烦python讲得好差_莫烦PYTHON——PyTorch——DQN 代码详解
  12. WWF中Conditioned Activity Group的子Activity扩展CAG的WhenCondition属性代码解析
  13. 机器学习(11)——时间序列分析
  14. 51单片机和LCD1602实现简单的密码锁
  15. 计算机网络原理第七章——Internet 原理
  16. 请问你为什么学习Lisp?
  17. 框架效应——说话的学问
  18. c语言考试的说说带图片致自己,励志说说带图片致自己最新
  19. 【FCC】检查字符串结尾
  20. 地图四色着图的C语言实现

热门文章

  1. TopoDOT | 高精地图三维矢量元素提取——道路车道标线
  2. 最新HTML完整结构
  3. 矩形波导中TE波和TM波的截止波数截止波长和截止频率
  4. Android 项目必备(二十三)-->减小 APK 大小
  5. Boost电路的参数设计
  6. 实现汉字的凯撒密码(内容包括:去掉字符串中的转义字符、汉字的unicode转换)
  7. 电脑快捷键横屏变竖屏_电脑屏幕横屏与竖屏之间怎么来回切换?
  8. 为什么电脑屏幕会横过来_电脑屏幕横过来了怎么办
  9. python另存为excel_python 将数据保存为excel的xls格式(实例讲解)
  10. 基于51单片机的智能时控开关设计