大数据不是一门专门的技术,而是很多技术的综合应用。可以通过一些列大数据技术对海量数据进行分析,挖掘出数据背后的价值。
虽然大数据与Hadoop密切相关,但Hadoop并不等同于大数据,大数据也不是指Hadoop,大数据代表的是一种理念、一种解决问题的思维、一些列技术的集合,Hadoop只是其中一种具体的处理数据的技术框架,目前比较流行的Spark、Flink等实时计算框架也属于大数据技术。

1、数据获取

低侵入的浏览器探针技术采集用户浏览数据,使用爬虫技术获取网页技术,使用Canal采集MySQL数据库的binlog日志,使用组件Flume采集WEB服务器的日志。
一般采用Flume、Logstash、Filebeat等工具采集日志文件数据。采用Sqoop、Canal等工具采集数据库中的数据。

2、数据存储

大数据平台的调优很多情况下主要集中在对磁盘I/O的调优。
多数据并行读写,首要解决的是硬盘故障问题,最常用的方法是复制(replication),系统保存多个副本(replaca),一种方式是使用冗余磁盘阵列(RAID),另一种方式是Hadoop分布式文件系统(HDFS),另外还有构建在HDFS之上的分布列式数据库(HBase),其可以提供实时的多维分析。
实时计算项目中,经常需要使用Kafka消息队列作为实时的数据中转服务。

3、资源管理

资源管理的本质是集群、数据中心级别资源的统一管理和分配。其中多租户、弹性伸缩、动态分配是资源管理系统要解决的和信问题。
为了提高集群资源利用率、解决资源共享问题,YARN应用而生。实际应用中,一般会将各种大数据处理框架部署到YARN集群中(Mapreduce on YARN、Spark on YARN、Flink on YARN)。

4、大数据处理核心

4.1、数据处理

离线处理即批处理:MapReduce、Spark Core、Flink DateSet。
实时处理即流处理:Spark Streaming、Flink DataStream。

4.2、交互式分析

实际引用中,经常需要对离线或实时处理后的历史数据,根据不同的条件进行多维分析查询并及时返回结果,这是旧需要交互式分析。
在大数据领域,交互式查询通常用于实时报表分析、实时大屏、在线话单查询等。
主要是基于SQL on Hadoop,SQL on Hadoop是一个泛化的概念,是指Hadoop生态圈中一系列支撑SQL接口和技术,譬如Hive SQL、Spark SQL。

4.3、机器学习与数据挖掘

复杂的数据分析需要利用数据挖掘和机器学习的方法。
机器学习时数据挖局中的一种重要工具数据挖掘不仅要研究、拓展、应用一些机器学习的方法,还要通过许多非机器学习技术解决数据存储、数据噪声等实际问题。
机器学习库:Spark ML、Flink ML(发展过程中)。

另外在搭建Hadoop集群过程中,还需要搭建Zookeeper分布式协调服务,用来实现HDFS集群和YARN集群的高可用。

大数据技术概述__大数据最全面的技术栈总结及分类相关推荐

  1. 大数据、云计算、物联网相关技术概述——《大数据技术原理与应用》课程学习总结

    在学习大数.云计算以及物联网相关概念之前,先了解一下大数据的背景吧 1.1 大数据时代 1.1.1 第三次信息化浪潮 三次信息化浪潮: 信息化浪潮 发生时间 标志 解决问题 代表企业 第一次信息化浪潮 ...

  2. 大数据学习02:大数据课程概述与大数据背景知识

    Hadoop2.X管理与开发 每日关注 2019年3月21日 星期四1. 阿里AI labs成立方言保护专项小组,投入1亿元保护汉语方言2. 小红书上线"品牌号",并进行五大模块升 ...

  3. lisp 线性标注自动避让_《数据标注工程》第一章学习笔记及作业:数据标注概述...

    第一章:数据标注概述 一.数据标注的起源与发展 1.人工智能行业的发展 AI的概念:意指让机器具有像人一般的智能行为(1956年,达特茅斯会议,由约翰·麦卡锡提出) AI的发展:60多年来,浮浮沉沉. ...

  4. python降维之时间类型数据的处理_【Python算法】数据降维概述

    数据降维概述 1.数据降维概述 所谓的数据降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中,可以解决大规模特征下的数据显示问题,使得数据集更易使用,降低后续算法的计算,消除噪声影 ...

  5. JVM---运行时数据区概述

    运行时数据区概述 运行时数据区,见下图,它是在类加载完成后的阶段. 当我们通过前面的:类的加载-> 验证 -> 准备 -> 解析 -> 初始化 , 这几个阶段完成后,就会用到执 ...

  6. 大数据应用导论 Chapter1 | 大数据技术与应用概述

      大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  7. 大数据云计算技术概述_云计算–概述,类型,优势和未来范围

    大数据云计算技术概述 Cloud Computing is a type of online on-demand service that includes resources like comput ...

  8. 大数据技术概述复习(一)

    大数据技术概述复习(一) 本文整理复习自用,仅供参考 引用: 1<大数据技术原理与应用(第3版)> 2 https://blog.csdn.net/weixin_45207388/arti ...

  9. 大数据技术概述与入门

    一.大数据概述 大数据概念最初来自于2009年的<自然>杂志, Ginsberg采用大数据搜索引擎查询数据并对流行性流感活动进行检测,之后在2011年2月<科学>杂志通过社会调 ...

最新文章

  1. Android stadio 电脑连上手机可以识别,但是连不上Android stadio
  2. 计算机二级c语言作弊的东西,计算机二级C全部考试题库[作弊必备]编程题.txt
  3. ecmall开发记录(三)
  4. 多次执行echarts时出现 there is a chart instance already initialized on the dom
  5. MySQL之alter和upate
  6. 大厅安排(normal)
  7. mysql查询中文_MySQL中like查询中文问题的解决
  8. centos7环境下MySQL安装教程
  9. 1121: [POI2008]激光发射器SZK
  10. 《信息系统项目管理师教程》目录
  11. CLion安装 + MinGW 配置 + Opencv安装
  12. 吃鸡手游服务器响应超时闪退,吃鸡界面怎么老是连接超时 | 手游网游页游攻略大全...
  13. 聚合生态 云上未来 阿里巴巴游戏生态全链路赋能游戏产业
  14. ShareX的使用说明
  15. Netlify前端自动化部署服务
  16. 学习springcloud
  17. Retrofit的好处
  18. 用Python爬了知乎“神回复”,笑得根本停不下来
  19. html中可编辑的表格控件,Editable DataGrid(可编辑表格)
  20. Unity 可视化脚本 Bolt插件 使用评测

热门文章

  1. Pspice积分线路仿真问题汇总(压控电压源模拟理想运放)
  2. springMVC+mysql实现的Java web医院分诊挂号管理系统源码附带论文及视频指导运行教程
  3. Java中字符串开头,java中如何判断字符串是以什么开头
  4. VIM 编辑器使用指南
  5. 基于51单片机的智能浇花系统(可做毕设)
  6. 2021年安全员-C证(山东省-2021版)最新解析及安全员-C证(山东省-2021版)考试APP
  7. 将yuv图像转为.jpg文件
  8. 学校计算机使用维护管理制度,计算机教室使用管理制度
  9. 【无标题】解决最新版discuz3.4安装模板插件提示【对不起,您安装的不是正版应用】
  10. python3.7安装scrapy_Python3.7下scrapy框架的安装