专栏目录

(1)大数据和应用场景介绍

(2)大数据技术综述总结

(3)HDFS原理与高可用技术原理介绍

(4)Yarn架构、资源管理原理和运维技术介绍

(5)Kafka原理和高可用介绍

1.大数据基本特征


  1. Volume :从数据量上来说,传统数据规模相对较小,最大维持在GB-TB,而大数据领域中我们需要处理的数据集规模基本都是在TB、乃至PB级别以上;
  2. Variety :速度方面,从两个方面来说,第一、从数据的增长速度来说,随着互联网以及物理网的带动,数据量增长非常迅猛;第二、从数据的处理速度上来说,现实场景中我们需要更低延时的高效分析,例如一些秒级别、毫秒级别的实时分析。
  3. Velocity :多样化,在数据类型上,除了传统的结构化数据,大数据场景下非结构化数据占比会大很多。其实非结构化数据在传统的架构当中也会有存在,但是因为受限于传统模式下技术较差、他的价值密度较低,数据存储下来无法带来更多的价值,所以传统方式仅仅只是把它存储下来、或者考虑到存储的成本都有可能不去存储。而如今在大数据架构当中,首先数据存储的成本非常之低,其次目前有很多专门针对于非结构化数据的处理技术支持,对于非结构化数据我们可以对其进行做更加深度的分析挖掘,得出更加有价值的内容。
  4. Value :价值,大数据可以做的不仅仅只是一些统计报表,更可以去做数据挖掘,因为要做数据挖掘,首先得有足够多的数据,另一方面大数据领域有很多相关的技术的支持,性能相比于传统的架构会非常的好。
简而言之,大数据基本特征4V:Volume 数据规模巨大、Variety 数据类型多样、Velocity 生成和处理速度极快、Value 价格巨大但密度较低。
在真实生产环境中,大数据不仅仅指数据本身,还包括其衍生的数据处理技术(存储+处理)。

2.大数据应用场景


(1)数据仓库
传统的架构中也会有数据仓库,但是传统架构中,数据流转大概是从业务系统产生数据存储到数据库中、然后跑批处理做一些加工处理、生成数据到仓库中,然后再做一些分析,结果最终展示
而大数据场景下,首先数据源这部分来源更加丰富,例如:网路爬虫、传感器等等种类更多,并且数据量也更大,数据产生接入过来,存储在分布式的集群当中,然后再通过MapReduce(或者替换其他的计算框架)计算,存储以及计算都是一些分布式架构。
    分布式的优势:①当现有集群规模满足不了的情况下,可以动态添加增点从而提高数据存储容量、提高计算的性能。②对比于传统场景往往都是单机方式,存储容量以及性能上都不能提供好的支持、并且也没有灵活低成本的动态机制支持
(2)实时流处理
传统场景也有实时流处理,它是通过实时库来解决,价格非常昂贵,而且比较单一
大数据场景下,往往通过kafka来收集数据。①kafka构建起来成本会低很多,并且对于各种不同来源数据接入都没有太多问题,包括数据的高可用性、读写性能支持都非常好。②数据收集之后,通过像开源Storm、SparkStreaming以及我们的SlipStream进行实施分析,最终结果以图形化方式展示。

(1)大数据和应用场景介绍相关推荐

  1. 企业级大数据平台应用场景介绍

    从业务的角度看,企业级大数据平台功能可细分为查询检索.数据挖掘.统计分析.深度分析,其中深度分析分为机器学习和神经网络. 从技术的角度看,企业级大数据平台功能细分为Batch.SQL.流式处理.mac ...

  2. 大数据和Hadoop平台介绍

    大数据和Hadoop平台介绍 定义 大数据是指其大小和复杂性无法通过现有常用的工具软件,以合理的成本,在可接受的时限内对其进行捕获.管理和处理的数据集.这些困难包括数据的收入.存储.搜索.共享.分析和 ...

  3. 第三课 大数据技术之Spark-RDD介绍和转换算子

    第三课 大数据技术之Spark-RDD介绍和转换算子 文章目录 第三课 大数据技术之Spark-RDD介绍和转换算子 第一节 RDD相关介绍 1.1 什么是 RDD 1.2 核心属性 1.3 执行原理 ...

  4. 【公测中】阿里云发布国内首个大数据双活容灾服务,满足高要求大数据灾备场景...

    在6月上旬举行的云栖大会上海峰会上,阿里云发布了国内首个大数据集群双活容灾产品-混合云容灾服务下的混合云大数据容灾服务(HDR for Big Data, 简称 HDR-BD),并已经在7月份开始邀测 ...

  5. 【公测中】阿里云发布国内首个大数据双活容灾服务,满足高要求大数据灾备场景

    在6月上旬举行的云栖大会上海峰会上,阿里云发布了国内首个大数据集群双活容灾产品-混合云容灾服务下的混合云大数据容灾服务(HDR for Big Data, 简称 HDR-BD),并已经在7月份开始邀测 ...

  6. 大数据的应用场景你知道哪些?

    大数据这个词相信很多的朋友都不陌生了吧,生活中的大数据已经应用到了我们生活中了,经常喜欢网上购物的朋友应该深有体会吧,购物网站能够给你推荐一些你喜欢的商品. 随着移动互联网的高速发展,更多的数据可以被 ...

  7. 大数据常见应用场景及架构改进

    大数据常见应用场景及架构改进 大数据典型的离线处理场景 1.大数据数据仓库及它的架构改进 2.海量数据规模下的搜索与检索 3.新兴的图计算领域 4.海量数据挖掘潜在价值 大数据实时处理场景 大数据典型 ...

  8. 【大数据相关】电商大数据之用户画像介绍

    因为平时工作中接触的跟大数据有关,于是学习了一下大数据 第一篇学习的是:慕课网 -- 大数据 --  电商大数据之用户画像介绍 笔记--基本概念介绍: 1.用户画像的价值 --- 有利于精准营销,营销 ...

  9. 大数据的应用场景都有哪些(教育篇)

    现如今,很多学校的教室都早已使用上了多媒体工具,正是有了这些东西,使得学生能够感受到学习的快乐,以及能够让同学们更好地学习知识.现在在教育的每一个环节都离不开数据,其实大数据在教育方面的使用也越来越普 ...

最新文章

  1. 微信小程序 html css xml,微信小程序 使用towxml解析html流程及踩坑记录
  2. 你得学会并且学得会的Socket编程基础知识
  3. 【机器学习基础】非常详细!机器学习模型评估指标总结!
  4. 【数据结构与算法】之深入解析“扁平化多级双向链表”的求解思路与算法示例
  5. 前端学习(710):命名规范和语法格式
  6. 【HDU - 5744 】Keep On Movin (回文串性质,贪心思维,不是水题)
  7. JSON数据从OSS迁移到MaxCompute最佳实践 1
  8. redis扫描特定keys脚本,可避免阻塞,不影响线上业务
  9. java scala中传递变长参数
  10. C51与MDK共存 Keil5安装教程
  11. 灵境(元宇宙) 赋能传统产业创新的理论方法与架构模式
  12. 现代计算机图形学笔记(六)——布林-冯反射模型、图形管线、纹理映射
  13. Matlab 2018b 安装问题 - License checkout failed
  14. html组态插件_BY组态 插件 web组态 插件 物联网组态 插件
  15. 手机token登入软件_app开发调试工具_app开发token使用
  16. 反病毒利器Autoruns和ProcessExplorer, SREng - 本人推荐使用的查毒杀毒辅助工具
  17. 【密码学-2】什么是椭圆曲线密码
  18. 闪光法测量高导热碳化硅(4H-SiC、6H-SiC)圆晶中存在的问题
  19. Linux简介-远程操作-文本编辑器-1
  20. oracle查询所有表的中文名,Oracle 查询库中所有表名、字段名、字段名说明,查询表的数据条数、表名、中文表名、...

热门文章

  1. PrimeNG安装使用
  2. 【卡尔曼滤波】我所理解的卡尔曼滤波
  3. [Leetcode] 625. Minimum Factorization 解题报告
  4. Github推荐--PC端下载bilibili视频
  5. 微带线等效电感仿真与设计
  6. 深大uooc学术道德与学术规范教育第十章
  7. 媒体直播——直播现场 一个信号源多平台同步
  8. c语言贾宗璞答案,c语言程序设计答案贾宗璞 许合利
  9. 为什么hashmap的容量必须是2的n次幂
  10. Linux系统检测工具