1. 大数据处理基本流程

2. Hadoop生态及各个组件及其功能

3. 分布式文件系统HDFS的名称节点和数据节点的功能

名称节点(NameNode):管理文件系统的命名空间和客户端对文件的访问;

数据节点(DataNode):处理文件系统客户端的读写请求,在名称节点的调度下,完成数据块的创建,删除和复制操作;

4. MapReduce的基本设计思想

MapReduce是一种分布式,并行编程的模型,将负责的并行计算抽象为两个函数,Map和Reduce. Mapmap操作会将集合中的元素从一种形式转化成另一种形式。Reduce将值的集合转换成一个值(例如求和或者求平均),或者转换成另一个集合.

注:所有的Reduce操作,需要等到上一个任务的所有Map任务结束以后才能开始。

5. YARN基本功能,使用YARN所带来的好处

YARN解决一个问题:在同一个集群里,高效使用多个框架,实现计算资源共享和弹性收缩。简而言之,不需要在每一台机器上部署所有的计算平台,可弹性的在仅需要某些特定计算的机器上部署指定的计算平台。

6. Hadoop生态系统中HBase作用

Hbase是一个高性能,面向列,可伸缩的分布式数据库,用于存储非结构化和半结构化数据。Hbase一般不单独使用,而是和其他Hadoop组件联合使用。

注:Hbase一般用于快速搜索,而计算和分析使用Hive。

7. 数据仓库Hive的主要功能

Hive是基于Hadoop的数据仓库工具,用于整理,特殊查询(如范围查询)和分析处理

8. Hadoop的主要缺陷,Spark的优点

Hadoop缺点:

  • 只有Map和Reduce操作,但并不是所有计算都可以抽象为这两种操作;
  • 每次执行任务都需要读写磁盘,磁盘IO开销大;
  • 延迟高,每个Reduce任务需要等到上一级所有Map任务完成后才可以开始;

Spark优点:

  • 提供除了Map和Reduce的其他操作,如Group,Fillter等
  • 内存计算,大量迭代计算放在内存中(如果内存足够),减小磁盘开销,速度更快;
  • 有向无环图DAG的任务调度机制,高效,可追溯;如任务意外终止,不需要从0开始重新计算;

9. Spark与Hadoop的统一部署

10. Flink与Spark,实现机制的不同点

Flink: 真正的流式处理,一行一行的处理数据;

Spark:基于RDD处理数据,将RDD切分足够小,才可以近似等于流式处理;

链接:

Map与Reduce理解

厦门大学大数据课程

Spark (一):大数据概述相关推荐

  1. 大数据技术介绍:01大数据概述

    大数据技术介绍:01大数据概述 大数据技术框架: Hadoop生态系统(1) Hadoop生态系统(2) Hadoop构成:Flume(非结构化数据收集): Cloudera开源的日志收集系统 用于非 ...

  2. 大数据(一) --大数据概述

    大数据概述 大数据兴起的背景 --第三次信息化浪潮 技术支撑 数据产生方式的变革. 什么是大数据? 大数据特性 大数据的几个来源 大数据带来思维方式的转变: 关键技术: 典型计算模式 大数据兴起的背景 ...

  3. 大数据学习笔记(一)——大数据概述

    第一章 大数据概述 1.1 大数据时代 1.1.1 信息科技为大数据时代提供技术支持 ①存储设备容量不断増加--解决了信息存储的问题 ②CPU处理能力大幅提升--解决了信息处理的问题 ③网络带宽不断増 ...

  4. 2018年又传喜报!热烈祝贺王家林大师大数据经典著作《Spark SQL大数据实例开发教程》 畅销书籍 出版上市!

    2018年又传喜报!热烈祝贺王家林大师大数据经典著作<Spark SQL大数据实例开发教程> 畅销书籍 出版上市! 作者: 王家林 段智华  条码书号:9787111591979 出版日期 ...

  5. 《Spark SQL大数据实例开发》9.2 综合案例实战——电商网站搜索排名统计

    <Spark SQL大数据实例开发>9.2 综合案例实战--电商网站搜索排名统计 9.2.1 案例概述     本节演示一个网站搜索综合案例:以京东为例,用户登录京东网站,在搜索栏中输入搜 ...

  6. 大数据实时处理-基于Spark的大数据实时处理及应用技术培训

    随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据 的时代.大 数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫 ...

  7. 史上最快! 10小时大数据入门(一)-大数据概述

    第1章 大数据概述 计划安排

  8. 大数据学习笔记01:大数据概述

    文章目录 一.Zebra项目缺点 二.大数据概述 1.大数据时代 (1)第三次信息化浪潮 (2)信息科技为大数据时代提供技术支撑 A. 存储设备容量不断增加 B. CPU处理能力大幅提升 C. 网络带 ...

  9. 一个案例告诉你如何使用 Kyligence + Spark 进行大数据机器学习

    导语:今天,大数据.数据科学.机器学习分析不再只是热词,已经真实地渗透于生活方方面面.根据福布斯,到2025年,全球每年将会有 175 泽字节的数据产生.Kyligence的诞生为企业带来了极速的大数 ...

  10. 好程序员大数据培训分享大数据概述

    好程序员大数据培训分享大数据概述一,大数据时代的悄然来临,让信息技术的发展发生了巨大变化,并深刻影响着社会生产和人民生活的方方面面.每个国家都高度重视大数据技术的研究和产业发展,纷纷把大数据上升为国家 ...

最新文章

  1. LVS TUN模式搭建
  2. Linux下根据进程ID查看进程文件的路径
  3. 【MM模块】Invoice for POs with Acc Assignment 科目指派
  4. 企业建立数据驱动决策该如何做?终于有大神总结全了
  5. 2、Spring Cloud - 入门概述
  6. 你的模型够可靠么?关键词掩码的模型可靠性提升方法探索
  7. boost::fusion::traits用法的测试程序
  8. 神舟笔记本电源管理软件_笔记本电脑是一直插着电源好,还是拔了电源好?
  9. oracle impdp导入时卡住,Oracle:impdp导入等待statement suspended, wait error to be cleared
  10. 【520有奖征文】 老同学聚会,20年IT行业从业感悟
  11. Weblogic常见故障常:JDBC Connection Pools
  12. node.js 数据库操作工具类封装
  13. 学习笔记-网络安全(二)
  14. 如何将npy导入matlab,如何在Matlab中读取.npy文件(How to read .npy files in Matlab)
  15. Centos8.4服务器安全加固方案
  16. linpack测试软件,服务器性能测试(linpack,stream,netperf,iometer)
  17. PQI Air Card:自带Wi-fi的闪存卡 即时分享精彩画面
  18. 宅基地一码溯源、一码统管
  19. 【雅思大作文考官范文】——第十三篇:'traditions and technology' essay
  20. 在家远程控制公司电脑怎么实现 7款好用的远程工具介绍

热门文章

  1. ecshop二次开发笔记
  2. 【转】通过《淘宝这十年》总结的脑图
  3. rtl驱动 ubuntu 禁用_Ubuntu如何安装rtl8822be驱动
  4. 2020h黑苹果 y7000p_【黑苹果】联想Lenovo Legion Y7000 Y530系列笔记本,EFI文件下载
  5. fps透视基础-d3d绘制-绘制文字-绘制方框-绘制连线
  6. Centos yum 包管理工具离线安装
  7. STM32标准库驱动蜂鸣器
  8. cruzer php sandisk 闪迪u盘量产工具_闪迪u3量产工具下载|
  9. thinkpad sl400 换网卡,debian换驱动
  10. (收藏)《博客园精华集》ASP.NET分册