1. 什么是大数据

特性:

  • 快速化
  • 大量化
  • 多样化
  • 价值密度低(单点价值高)

分类:

  • 非结构化数据(存储在非关系型数据库)
  • 结构化数据(存储在关系型数据库)

2.大数据影响

科学研究范式:

  • 实验 -> 理论 -> 计算 -> 大数据\

思维方式:

  • 全样而非抽样
  • 效率而非精确
  • 相关而非因果

3. 大数据关键技术

  • 数据采集
  • 数据存储与管理(分布式存储)
  • 数据处理与分析(分布式处理)
  • 数据隐私与安全

分布式存储:

  • GFS\HDFS
  • BigTable\HBase
  • NoSQL
  • NewSQL

分布式处理:

  • MapReduce
  • Spark
  • Flink

4.大数据计算模式

*不同的计算模式需要不同的应用场景

计算模式:

  • 批处理(MapReduce、Spark)
  • 流计算(需要实时处理,给出实时响应。Storm,S4,Flume)
  • 图计算
  • 查询分析计算(Dremel、Hive、Cassandra)

5. 大数据生态

Hadoop(一个生态系统)

  • HDFS(分布式文件系统)
  • YARN(资源调度和管理框架。CPU,GPU)

实现“一个集群多个框架”

  • MapReduce分布式计算框架

核心策略:
             分而治之

  • Hive(数据仓库,本身不保存数据。本身编程接口SQL语句->mapreduce程序)
  • pig(数据流处理,数据清洗)
  • Mahout(数据挖掘,机器学习算法库。分类、回归等)
  • Ambari(安装、部署、配置和管理工具。自动完成安装配置)
  • Zookeeper(分布式协作服务)
  • HBase(分布式数据库)
  • Flume(日志采集)
  • Sqoop(数据库ETL,抽取,转换,加载)

Spark(一个生态)

  • Spark Core(满足企业批处理需求)
  • Spark SQL(查询分析)
  • Spark Streaming(流计算)
  • MLlib(机器学习算法库)
  • GraphX(图结算应用程序)

hadoop与Spark

  • hadoop(map reduce)表达能力有限
  • hadoop(map reduce)磁盘IO开销比较大
  • hadoop(map reduce)延迟高。map任务结束之后才能进入reduce

Spark:

操作不止map reduce(表达能力强)

spark克服了hadoop的缺点,数据存储在内存中

Flink和Beam

  • Flink和Spark同样是计算框架,具备同样的功能
  • Flink基于流处理模式,Spark基于批处理模式

  • Beam(google)

提供一整套开发SDK

Spark学习-DAY1相关推荐

  1. Apache Spark学习:利用Eclipse构建Spark集成开发环境

    介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上, 介绍如何利用Eclipse构建Spark集成开发环境 . 不建议大家使用eclips ...

  2. Apache Spark学习:利用Scala语言开发Spark应用程序

    Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情.如果你对Scala语言还不太熟悉,可以阅读网络教程 A Scala Tutorial for Ja ...

  3. Spark学习之Spark调优与调试(7)

    Spark学习之Spark调优与调试(7) 1. 对Spark进行调优与调试通常需要修改Spark应用运行时配置的选项. 当创建一个SparkContext时就会创建一个SparkConf实例. 2. ...

  4. 用Spark学习FP Tree算法和PrefixSpan算法

    在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法.由于scikit-l ...

  5. Spark学习(一) -- Spark安装及简介

    标签(空格分隔): Spark 学习中的知识点:函数式编程.泛型编程.面向对象.并行编程. 任何工具的产生都会涉及这几个问题: 现实问题是什么? 理论模型的提出. 工程实现. 思考: 数据规模达到一台 ...

  6. spark学习-58-Spark的EventLoggingListener

    1.本次调试查看源代码采用 spark学习-57-Spark下Scala版HBase下的根据权重获取最真实数据http://blog.csdn.net/qq_21383435/article/deta ...

  7. spark学习-28-Spark数据倾斜问题

    文章目录 推荐:先看看这个 spark学习-27-Spark性能调优(2) 目的 数据倾斜调优 简述 数据倾斜发生时的现象 数据倾斜发生的原理 上面说了那么多其实我还是没具体见过什么是数据倾斜了 分析 ...

  8. spark学习-Spark算子Transformations和Action使用大全(Action章)

    spark学习-22-Spark算子Transformations和Action使用大全(Transformations章(一)) http://blog.csdn.net/qq_21383435/a ...

  9. spark学习-Spark算子Transformations和Action使用大全(Transformations章(二))

    spark学习-22-Spark算子Transformations和Action使用大全(Transformations章(一)) http://blog.csdn.net/qq_21383435/a ...

最新文章

  1. 3、C语言面试笔试--控制结构
  2. PLSQL Developer连接oracle数据库安装及配置
  3. python logging模块之handlers的使用教程
  4. ViewPager 的适配器 PagerAdapter 、FragmentPagerAdapter与FragmentStatePagerAdapter使用详解与区别
  5. 防外挂和防木马的通用解决方案
  6. CSS中的 ',' 、''、'+'、'~'
  7. Web前端笔记-浏览器控制台调用js函数及vue函数
  8. c语言数据结构五子棋实验报告,数据结构课程设计-五子棋
  9. Windows xp LoadPerf系统错误
  10. python爬虫遇到js加密_当爬虫遇到js加密
  11. 住建部印发《全国建筑设计周期定额》——建设和设计单位“不得压缩”设计周期...
  12. 萤火虫小程序_十一爱萌乐园试营业欢乐开启!萤火虫星光夜梦幻来袭!更有…...
  13. Linux 数据校验md5sum
  14. mysql proxy maxscale_通过Maxscale代理,实现MySQL读写分离
  15. 优酷 DSP 广告投放系统架构实践
  16. 【转载】国医大师熊继柏:用中医思维彻底把新冠病毒中医治疗方案说清楚!值得中医人收藏
  17. 06.变革、变革、再变革
  18. 如何在word中的图片上画圈标注_怎么在word图片上画圈
  19. 【方便的Opencv】实现图片合成视频+附带图片生成gif
  20. Thermal(1)——温控策略

热门文章

  1. 制作嵌入式Linux根文件系统
  2. Google搜索API?
  3. 指针、函数、指针函数和函数指针
  4. gihub上传本地项目简单步骤
  5. C语言经典题目:有5个人坐在一起,问他们分别多少岁?
  6. 关于 CC BY-SA 4.0
  7. 关于杨创YC2440uboot移植
  8. WWDC苹果开发者大会--直播
  9. WordArt与everything联用生成含中文的词云
  10. python爬虫有多少种方式_python爬虫-----Python访问http的几种方式