Spark (一):大数据概述
1. 大数据处理基本流程
2. Hadoop生态及各个组件及其功能
3. 分布式文件系统HDFS的名称节点和数据节点的功能
名称节点(NameNode):管理文件系统的命名空间和客户端对文件的访问;
数据节点(DataNode):处理文件系统客户端的读写请求,在名称节点的调度下,完成数据块的创建,删除和复制操作;
4. MapReduce的基本设计思想
MapReduce是一种分布式,并行编程的模型,将负责的并行计算抽象为两个函数,Map和Reduce. Mapmap操作会将集合中的元素从一种形式转化成另一种形式。Reduce将值的集合转换成一个值(例如求和或者求平均),或者转换成另一个集合.
注:所有的Reduce操作,需要等到上一个任务的所有Map任务结束以后才能开始。
5. YARN基本功能,使用YARN所带来的好处
YARN解决一个问题:在同一个集群里,高效使用多个框架,实现计算资源共享和弹性收缩。简而言之,不需要在每一台机器上部署所有的计算平台,可弹性的在仅需要某些特定计算的机器上部署指定的计算平台。
6. Hadoop生态系统中HBase作用
Hbase是一个高性能,面向列,可伸缩的分布式数据库,用于存储非结构化和半结构化数据。Hbase一般不单独使用,而是和其他Hadoop组件联合使用。
注:Hbase一般用于快速搜索,而计算和分析使用Hive。
7. 数据仓库Hive的主要功能
Hive是基于Hadoop的数据仓库工具,用于整理,特殊查询(如范围查询)和分析处理
8. Hadoop的主要缺陷,Spark的优点
Hadoop缺点:
- 只有Map和Reduce操作,但并不是所有计算都可以抽象为这两种操作;
- 每次执行任务都需要读写磁盘,磁盘IO开销大;
- 延迟高,每个Reduce任务需要等到上一级所有Map任务完成后才可以开始;
Spark优点:
- 提供除了Map和Reduce的其他操作,如Group,Fillter等
- 内存计算,大量迭代计算放在内存中(如果内存足够),减小磁盘开销,速度更快;
- 有向无环图DAG的任务调度机制,高效,可追溯;如任务意外终止,不需要从0开始重新计算;
9. Spark与Hadoop的统一部署
10. Flink与Spark,实现机制的不同点
Flink: 真正的流式处理,一行一行的处理数据;
Spark:基于RDD处理数据,将RDD切分足够小,才可以近似等于流式处理;
链接:
Map与Reduce理解
厦门大学大数据课程
Spark (一):大数据概述相关推荐
- 大数据技术介绍:01大数据概述
大数据技术介绍:01大数据概述 大数据技术框架: Hadoop生态系统(1) Hadoop生态系统(2) Hadoop构成:Flume(非结构化数据收集): Cloudera开源的日志收集系统 用于非 ...
- 大数据(一) --大数据概述
大数据概述 大数据兴起的背景 --第三次信息化浪潮 技术支撑 数据产生方式的变革. 什么是大数据? 大数据特性 大数据的几个来源 大数据带来思维方式的转变: 关键技术: 典型计算模式 大数据兴起的背景 ...
- 大数据学习笔记(一)——大数据概述
第一章 大数据概述 1.1 大数据时代 1.1.1 信息科技为大数据时代提供技术支持 ①存储设备容量不断増加--解决了信息存储的问题 ②CPU处理能力大幅提升--解决了信息处理的问题 ③网络带宽不断増 ...
- 2018年又传喜报!热烈祝贺王家林大师大数据经典著作《Spark SQL大数据实例开发教程》 畅销书籍 出版上市!
2018年又传喜报!热烈祝贺王家林大师大数据经典著作<Spark SQL大数据实例开发教程> 畅销书籍 出版上市! 作者: 王家林 段智华 条码书号:9787111591979 出版日期 ...
- 《Spark SQL大数据实例开发》9.2 综合案例实战——电商网站搜索排名统计
<Spark SQL大数据实例开发>9.2 综合案例实战--电商网站搜索排名统计 9.2.1 案例概述 本节演示一个网站搜索综合案例:以京东为例,用户登录京东网站,在搜索栏中输入搜 ...
- 大数据实时处理-基于Spark的大数据实时处理及应用技术培训
随着互联网.移动互联网和物联网的发展,我们已经切实地迎来了一个大数据 的时代.大 数据是指无法在一定时间内用常规软件工具对其内容进行抓取.管理和处理的数据集合,对大数据的分析已经成为一个非常重要且紧迫 ...
- 史上最快! 10小时大数据入门(一)-大数据概述
第1章 大数据概述 计划安排
- 大数据学习笔记01:大数据概述
文章目录 一.Zebra项目缺点 二.大数据概述 1.大数据时代 (1)第三次信息化浪潮 (2)信息科技为大数据时代提供技术支撑 A. 存储设备容量不断增加 B. CPU处理能力大幅提升 C. 网络带 ...
- 一个案例告诉你如何使用 Kyligence + Spark 进行大数据机器学习
导语:今天,大数据.数据科学.机器学习分析不再只是热词,已经真实地渗透于生活方方面面.根据福布斯,到2025年,全球每年将会有 175 泽字节的数据产生.Kyligence的诞生为企业带来了极速的大数 ...
- 好程序员大数据培训分享大数据概述
好程序员大数据培训分享大数据概述一,大数据时代的悄然来临,让信息技术的发展发生了巨大变化,并深刻影响着社会生产和人民生活的方方面面.每个国家都高度重视大数据技术的研究和产业发展,纷纷把大数据上升为国家 ...
最新文章
- LVS TUN模式搭建
- Linux下根据进程ID查看进程文件的路径
- 【MM模块】Invoice for POs with Acc Assignment 科目指派
- 企业建立数据驱动决策该如何做?终于有大神总结全了
- 2、Spring Cloud - 入门概述
- 你的模型够可靠么?关键词掩码的模型可靠性提升方法探索
- boost::fusion::traits用法的测试程序
- 神舟笔记本电源管理软件_笔记本电脑是一直插着电源好,还是拔了电源好?
- oracle impdp导入时卡住,Oracle:impdp导入等待statement suspended, wait error to be cleared
- 【520有奖征文】 老同学聚会,20年IT行业从业感悟
- Weblogic常见故障常:JDBC Connection Pools
- node.js 数据库操作工具类封装
- 学习笔记-网络安全(二)
- 如何将npy导入matlab,如何在Matlab中读取.npy文件(How to read .npy files in Matlab)
- Centos8.4服务器安全加固方案
- linpack测试软件,服务器性能测试(linpack,stream,netperf,iometer)
- PQI Air Card:自带Wi-fi的闪存卡 即时分享精彩画面
- 宅基地一码溯源、一码统管
- 【雅思大作文考官范文】——第十三篇:'traditions and technology' essay
- 在家远程控制公司电脑怎么实现 7款好用的远程工具介绍
热门文章
- ecshop二次开发笔记
- 【转】通过《淘宝这十年》总结的脑图
- rtl驱动 ubuntu 禁用_Ubuntu如何安装rtl8822be驱动
- 2020h黑苹果 y7000p_【黑苹果】联想Lenovo Legion Y7000 Y530系列笔记本,EFI文件下载
- fps透视基础-d3d绘制-绘制文字-绘制方框-绘制连线
- Centos yum 包管理工具离线安装
- STM32标准库驱动蜂鸣器
- cruzer php sandisk 闪迪u盘量产工具_闪迪u3量产工具下载|
- thinkpad sl400 换网卡,debian换驱动
- (收藏)《博客园精华集》ASP.NET分册