Spark学习-DAY1
1. 什么是大数据
特性:
- 快速化
- 大量化
- 多样化
- 价值密度低(单点价值高)
分类:
- 非结构化数据(存储在非关系型数据库)
- 结构化数据(存储在关系型数据库)
2.大数据影响
科学研究范式:
- 实验 -> 理论 -> 计算 -> 大数据\
思维方式:
- 全样而非抽样
- 效率而非精确
- 相关而非因果
3. 大数据关键技术
- 数据采集
- 数据存储与管理(分布式存储)
- 数据处理与分析(分布式处理)
- 数据隐私与安全
分布式存储:
- GFS\HDFS
- BigTable\HBase
- NoSQL
- NewSQL
分布式处理:
- MapReduce
- Spark
- Flink
4.大数据计算模式
*不同的计算模式需要不同的应用场景
计算模式:
- 批处理(MapReduce、Spark)
- 流计算(需要实时处理,给出实时响应。Storm,S4,Flume)
- 图计算
- 查询分析计算(Dremel、Hive、Cassandra)
5. 大数据生态
Hadoop(一个生态系统)
- HDFS(分布式文件系统)
- YARN(资源调度和管理框架。CPU,GPU)
实现“一个集群多个框架”
- MapReduce分布式计算框架
核心策略:
分而治之
- Hive(数据仓库,本身不保存数据。本身编程接口SQL语句->mapreduce程序)
- pig(数据流处理,数据清洗)
- Mahout(数据挖掘,机器学习算法库。分类、回归等)
- Ambari(安装、部署、配置和管理工具。自动完成安装配置)
- Zookeeper(分布式协作服务)
- HBase(分布式数据库)
- Flume(日志采集)
- Sqoop(数据库ETL,抽取,转换,加载)
Spark(一个生态)
- Spark Core(满足企业批处理需求)
- Spark SQL(查询分析)
- Spark Streaming(流计算)
- MLlib(机器学习算法库)
- GraphX(图结算应用程序)
hadoop与Spark
- hadoop(map reduce)表达能力有限
- hadoop(map reduce)磁盘IO开销比较大
- hadoop(map reduce)延迟高。map任务结束之后才能进入reduce
Spark:
操作不止map reduce(表达能力强)
spark克服了hadoop的缺点,数据存储在内存中
Flink和Beam
- Flink和Spark同样是计算框架,具备同样的功能
- Flink基于流处理模式,Spark基于批处理模式
- Beam(google)
提供一整套开发SDK
Spark学习-DAY1相关推荐
- Apache Spark学习:利用Eclipse构建Spark集成开发环境
介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上, 介绍如何利用Eclipse构建Spark集成开发环境 . 不建议大家使用eclips ...
- Apache Spark学习:利用Scala语言开发Spark应用程序
Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情.如果你对Scala语言还不太熟悉,可以阅读网络教程 A Scala Tutorial for Ja ...
- Spark学习之Spark调优与调试(7)
Spark学习之Spark调优与调试(7) 1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项. 当创建一个SparkContext时就会创建一个SparkConf实例. 2. ...
- 用Spark学习FP Tree算法和PrefixSpan算法
在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法.由于scikit-l ...
- Spark学习(一) -- Spark安装及简介
标签(空格分隔): Spark 学习中的知识点:函数式编程.泛型编程.面向对象.并行编程. 任何工具的产生都会涉及这几个问题: 现实问题是什么? 理论模型的提出. 工程实现. 思考: 数据规模达到一台 ...
- spark学习-58-Spark的EventLoggingListener
1.本次调试查看源代码采用 spark学习-57-Spark下Scala版HBase下的根据权重获取最真实数据http://blog.csdn.net/qq_21383435/article/deta ...
- spark学习-28-Spark数据倾斜问题
文章目录 推荐:先看看这个 spark学习-27-Spark性能调优(2) 目的 数据倾斜调优 简述 数据倾斜发生时的现象 数据倾斜发生的原理 上面说了那么多其实我还是没具体见过什么是数据倾斜了 分析 ...
- spark学习-Spark算子Transformations和Action使用大全(Action章)
spark学习-22-Spark算子Transformations和Action使用大全(Transformations章(一)) http://blog.csdn.net/qq_21383435/a ...
- spark学习-Spark算子Transformations和Action使用大全(Transformations章(二))
spark学习-22-Spark算子Transformations和Action使用大全(Transformations章(一)) http://blog.csdn.net/qq_21383435/a ...
最新文章
- 3、C语言面试笔试--控制结构
- PLSQL Developer连接oracle数据库安装及配置
- python logging模块之handlers的使用教程
- ViewPager 的适配器 PagerAdapter 、FragmentPagerAdapter与FragmentStatePagerAdapter使用详解与区别
- 防外挂和防木马的通用解决方案
- CSS中的 ',' 、''、'+'、'~'
- Web前端笔记-浏览器控制台调用js函数及vue函数
- c语言数据结构五子棋实验报告,数据结构课程设计-五子棋
- Windows xp LoadPerf系统错误
- python爬虫遇到js加密_当爬虫遇到js加密
- 住建部印发《全国建筑设计周期定额》——建设和设计单位“不得压缩”设计周期...
- 萤火虫小程序_十一爱萌乐园试营业欢乐开启!萤火虫星光夜梦幻来袭!更有…...
- Linux 数据校验md5sum
- mysql proxy maxscale_通过Maxscale代理,实现MySQL读写分离
- 优酷 DSP 广告投放系统架构实践
- 【转载】国医大师熊继柏:用中医思维彻底把新冠病毒中医治疗方案说清楚!值得中医人收藏
- 06.变革、变革、再变革
- 如何在word中的图片上画圈标注_怎么在word图片上画圈
- 【方便的Opencv】实现图片合成视频+附带图片生成gif
- Thermal(1)——温控策略