一、大数据的基本概念

摘要:大数据基本概念考点:大数据的4V特征、类型(结构化与非结构化大数据)、核心技术(分布式存储和分布式处理)、大数据计算模式(批处理计算、流计算、图计算、查询分析计算)、每类计算模式典型的代表产品。

  • 大数据的4V特征
    规模性(volume)、多样性(variety)、价值密度(value)和高速性(velocity)
  • 大数据的类型
    结构化大数据:能够用数据或统一的结构加以表示的,如数字、符号。传统的关系数据模型,行数据,存储于数据库,可用二维表结构表示。
    非结构化大数据:是指其字段长度可变,并且每隔字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本,图像,声音,影视,超媒体等信息)。
  • 核心技术
    分布式存储:是将数据分散存储在多台独立的设备上。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
    分布式处理:是将不同地点的,或具有不同功能的,或拥有不同数据的多台计算机通过通信网络连接起来,在控制系统的统一管理控制下,协调地完成大规模信息处理任务的计算机系统。
  • 大数据计算模式
    (1)批处理计算:针对大规模数据的批量处理。主要技术:MapReduce(仅适合离线批处理)、Spark
    (2)流计算:针对流数据的实时计算处理。主要技术:Storm、Flume、Streams、Puma、DStream、S4、SuperMario、银河流数据处理平台。
    (3)图计算:针对大规模图结构数据的处理。主要技术:Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
    (4)查询分析计算:大规模数据的存储管理和查询分析。主要技术:Hive、Impala、Dremel、Cassandra等。

二、Hadoop框架基础理论

摘要:Hadoop特性、核心模块与相应的主要功能(HDFS分布式文件系统、MapReduce计算模型)。
(1)HDFS文件系统基本内容:体系结构、HDFS实现的目标与局限性、HDFS的NameNode和DataNode的功能与模块(NameNode:FsImage与EditLog;DataNode:数据存储与检索)。
(2)MapReduce计算模型基本内容:体系结构(Client、JobTracker、TaskTracker以及Task)、优势(容错性好、硬件要求低、编程难度低、使用场景多等)、设计策略(分而治之、计算向数据靠拢、Master/Slave架构)。
(3)Map/Reduce的输入/输出和工作流程:Input->Map->Reduce->Output。

  • Hadoop特性:高可靠性、高效性、高可扩展性、高容错性、成本低、运行在LInux平台上、支持多种编程语言
    补充:Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群进行高速运算和存储。Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称 HDFS。
  • Hadoop核心模块及对应的主要功能
    (1)Hadoop Common 为其他Hadoop模块提供基础设施
    (2)Hadoop HDFS一个高效、高吞吐量的分布式文件系统
    (3)Hadoop MapReduce一个分布式的离线并行计算框架。将计算分为两个阶段:Map(并行处理输入的数据)和Reduce(对map结果进行汇总),shuffle连接Map和Reduce两个阶段,仅适合离线简单的批处理(高容错性和易扩展性),缺点是成本高、效率低。
    (4)Hadoop YARN任务调度与资源管理
  • HDFS文件系统基本内容
    (1)体系结构:主从结构
    1)NameNode:主节点 (职责是管理维护HDFS(主要维护两个文件:FsImage与EditLog):存放元数据信息,存储文件名称,文件属性,文件块列表,所在dn节点列表。)
    补充:
    FsImage保存了最新的元数据检查点,包含了整个HDFS文件系统的所有目录和文件的信息。
    EditLog主要是在NameNode已经启动情况下对HDFS进行的各种更新操作进行记录,HDFS客户端执行所有的写操作都会被记录到editlog中。
    2)DataNode:从节点(数据存储与检索)
    3)SecondaryNameNode:第二名称节点
    (2)HDFS的目标:故障检测和快速自动恢复
    (3)HDFS的局限性:
    1)实时的数据访问弱:由于存储量大,所以读取数据慢。
    2)大量小文件: 因为NameNode把文件系统的元数据放置在内存中,所以文件系统所能容纳的文件数目是由Namenode的内存大小来决定,影响性能,
    3)不支持多用户写入,任意修改文件:HDFS文件只能有一个写入者,写数据只能在文件末尾添加,不支持多用户写者,不支持数据写入后在文件任意位置修改。

大数据管理与分析技术(1)相关推荐

  1. 【2017年第2期】专题:大数据管理与分析

    导读 大数据为什么这么"火"?不是因为数据量的"大",也不是因为大数据处理技术的"新",最根本的原因是大数据所蕴含的巨大价值.大数据作为一种 ...

  2. 大图数据管理与分析技术(综述)

    原创: 数据库专委会 中国计算机学会 CCF于2018年10月出版了新一期<中国计算机科学技术发展报告>,对AI与系统软件的深度融合等10个方向的研究进展做了详细的介绍和讨论.我们将分期分 ...

  3. 《大数据》专题征文:大数据可视分析技术与应用

    点击上方蓝字关注我们 <大数据>专题征文:大数据可视分析技术与应用 (截稿时间:2020年12月31日) 随着信息技术的飞速发展,特别是网络的普及,人类产生的数据量呈现爆炸式增长.而可视化 ...

  4. 使用pig对钓鱼网站链接url做词频统计【大数据处理与分析技术】

    使用pig对钓鱼网站链接url做词频统计(大数据处理与分析技术) 数据展示:(verified_online.csv) grunt> A = load 'verified_online.csv' ...

  5. Gartner:2019年十大数据与分析技术趋势

    来源:网络大数据 近日,全球领先的信息技术研究和顾问公司Gartner指出,增强型分析(augmented analytics).持续型智能(continuous intelligence)与可解释型 ...

  6. 山东大学大数据管理与分析知识点总结

    大数据概述 大数据(big data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产 大数据指不用随机分析法(抽样调查)这样的捷径 ...

  7. 2019年十大数据与分析技术趋势

    来自:GartnerInc 全球领先的信息技术研究和顾问公司Gartner指出,增强型分析(augmented analytics).持续型智能(continuous intelligence)与可解 ...

  8. 大数据系统和分析技术综述(引用最多)

    文章目录 1.1.1 批量数据的特征与典型应用 1.2 流式数据处理系统 1.3 交互式数据处理 1.4 图数据处理系统 2大数据分析 一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部 ...

  9. 大数据的分析技术,主要有哪些?

    要想从急剧增长的数据资源中挖掘分析出有价值的信息,需要先进的分析技术作支撑.从宏观上看,大数据分析技术发展所面临的问题均包含三个主要特征: (1)数据量庞大并以惊人的速度增长; (2)数据种类与结构多 ...

最新文章

  1. ThinkPHP U方法
  2. php的ajax实例
  3. Linux常用错误码--errno-base.h
  4. 研究机构:特斯拉Model 3是2月份最畅销电动汽车
  5. Linux下的C程序如何调用系统命令,并获取系统的输出信息到C程序中
  6. html5 canvas 详细使用教程
  7. UEditor的使用方法
  8. 【Axure教程】滑动输入元件
  9. MySQL调用存储过程和函数
  10. Jon的Java程序员实习报告
  11. 围观神仙打架,反革命工程师《iOS应用架构谈 组件化方案》和蘑菇街Limboy的《蘑菇街 App 的组件化之路》的阅读指导
  12. 每日打卡:等式方程的可满足性
  13. 2021.4.2项目阶段报告
  14. 比亚迪决定不给日系留“活路”了
  15. PD芯片程序烧录方法
  16. python赋值语句
  17. ac1900修改代理服务器,AC1900路由器怎么设置?
  18. 20162330 2017-2018-1《程序设计与数据结构》第二周学习总结
  19. 3.6 杭电复试题2010
  20. Mindjet MindManager 2021中文版注册序列号

热门文章

  1. android sdk官网帮助文档
  2. STM32-ADC-信号调理电路校准-excel-matlab
  3. 深入学习理解Java集合
  4. Java性能调优杀手锏JMH
  5. 如何计算电商网站页面单跳转化率?
  6. VS2015中无法查找或打开 PDB 文件
  7. mysql的基础命令之更改密码
  8. Java面试题(131-135)
  9. 九个值得一试的跨平台移动应用开发工具
  10. linux下打开chm格式文件