首先给大家分享一个巨牛巨牛的人工智能教程,是我无意中发现的。教程不仅零基础,通俗易懂,而且非常风趣幽默,还时不时有内涵段子,像看小说一样,哈哈~我正在学习中,觉得太牛了,所以分享给大家!点这里可以跳转到教程

1. 大数据离线处理特点

1) 数据量巨大且保存时间长;
   2) 在大量数据上进行复杂的批量运算;
   3) 数据在计算之前已经完全到位,不会发生变化;
   4) 能够方便的查询批量计算的结果;
   不像在线计算当前呈现的各种框架和架构,离线处理目前技术上已经成熟,大家使用的均是:  使用 Hdfs  存储数据,使用 MapReduce  做批量计算,计算完成的数据如需数据仓库的存储,直接存入 Hive , 然后从Hive 进行展现。

2. HDFS

Hdfs 是一种分布式文件系统,和任何文件系统一样 Hdfs 提供文件的读取,写入,删除等操作。Hdfs 是能够很好的解决离线处理中需要存储大量数据的要求。Hdfs和本地文件系统的区别如下:
    - Hdfs 不支持随机读写;
    - Hdfs 是分布式文件系统,支持数据多备份;
    Hdfs 多备份数据存放策略: 第一个副本放在和client所在的node里(如果client不在集群范围内,则这第一个node是随机选取的,当然系统会尝试不选择哪些太满或者太忙的node);第二个副本放置在与第一个节点不同的机架中的node中(随机选择);第三个副本和第二个在同一个机架,随机放在不同的node中。如果还有更多的副本就随机放在集群的node里。

3. MapReduce

MapReduce 是一种分布式批量计算框架,分为 Map 阶段和 Reduce 阶段。 MapReduce  能够很好的解决离线处理中需要进行大量计算的要求。 MapReduce 从出现到现在经历了第一代 MapReduce  v1 和 第二代 MapReduce  Yarn。
    Yarn 框架相对于老的 MapReduce 框架有以下优势:
    1) 减小了 JobTracker的资源消耗,之前JobTracker  既负责资源分配,也负责任务监控,Yarn 将这两项任务分别交给了 ResourceManager  和 ApplicationMaster  ,减少了之前 JobTracker 单点失败的风险;
    2) MRv1 将资源分别 Map slot 和 Reduce slot 而且相互之前不能使用,Yarn将资源分别CPU、内存,相互之前能够通用,更加灵活也更加合理;

3) 现在大部分使用 YARN

3.1 Yarn 框架的组件功能

- ResourceManager: 负责资源的调度,由两个组件组成:    调度器和应用管理 ApplicationsManager (ASM) ;
     - ApplicationsManager (ASM) :主要用于管理AM;
     - ApplicationMaster (AM) :主要用于管理其对应的应用程序,如MapReduce作业,DAG作业等;
     - NodeManager  (NM):主要用于管理某个节点上的task和资源;

- Container :容器中封装了机器资源,如内存,CPU, 磁盘,网络等,每个任务会被分配一个容器,该任务只能在该容器中执行,并使用该容器封装的资源

4. Hive

Hive 是一种数据仓库,Hive 中的数据存储于文件系统( 大部分使用 Hdfs),Hive 提供了方便的访问数据仓库中数据的  HQL 方法,该方法将 SQL 翻译成MapReduce。  能够很好的解决离线处理中需要对批量处理结果的查询。

Hive是对MapReduce和HDFS的高级封装,本身不存储表等相关信息。

Hive 将元数据存放在 metastore 中, Hive 的 metastore 有三种工作方式: 
     1) 内嵌Derby方式:   在同一时间只能有一个进程连接使用数据库;
     2) Local方式 :   使用本地 Mysql 数据库存储元数据;
     3) Remote方式:  使用远程已经搭建完成的 Mysql 数据库存储元数据;(实际使用此方式)

4.1 Hive架构

浏览人工智能教程

大数据离线处理和常用工具相关推荐

  1. 大数据在线分析处理和常用工具

    大数据在线分析处理的特点 . 数据源源不断的到来: 数据需要尽快的得到处理,不能产生积压: 处理之后的数据量依然巨大,仍然后TB级甚至PB级的数据量: 处理的结果能够尽快的展现: 以上四个特点可以总结 ...

  2. 迁移到其他机器_有赞大数据离线集群迁移实战

    ‍‍ 点击关注"有赞coder" 获取更多技术干货哦- 作者:郭理想 & 任海潮部门:数据中台 一.背景 有赞是一家商家服务公司,向商家提供强大的基于社交网络的,全渠道经营 ...

  3. 大数据离线批处理化解决方案--离线批处理

    大数据离线批处理化解决方案 安平领域 • 离线处理平台主要用来进行数据处理和加工,将原始数据加工成明细数据.以及进行离线分析和碰撞分析产生分析结果数据,供上层应用调用. • 安平领域需要监控的数据有很 ...

  4. 大数据离线阶段--数据获取

    大数据离线阶段 -----数据获取原理 数据分析 1. 数据分析定义 数据分析离不开数据,计量和记录一起促成了数据的诞生.伴随着数据记录的发展(尤其是技术),人类受益也越来越多,计算机出现带来的数字测 ...

  5. 大数据离线集群数据迁移实战项目

    有赞大数据离线集群迁移实战 一.背景 有赞是一家商家服务公司,向商家提供强大的基于社交网络的,全渠道经营的 SaaS 系统和一体化新零售解决方案.随着近年来社交电商的火爆,有赞大数据集群一直处于快速增 ...

  6. OPPO大数据离线计算平台架构演进

    1 前言 OPPO的大数据离线计算发展,经历了哪些阶段?在生产中遇到哪些经典的大数据问题?我们是怎么解决的,从中有哪些架构上的升级演进?未来的OPPO离线平台有哪些方向规划?今天会给大家一一揭秘. 2 ...

  7. 大数据产品不仅仅是IT工具

    对于企业的业务人员,特别是数据科学家人群来说,Informatica的Intelligent Data Platform不仅是一个智能化的大数据预处理工具,而且可以像业务系统一样为企业带来直接的价值. ...

  8. 容器开启数据服务之旅系列(四):Kubernetes QoS 助力在线运用与大数据离线运用的带宽控制和磁盘控制...

    容器开启数据服务之旅系列(四) Kubernetes QoS 助力在线运用与大数据离线运用的带宽控制和磁盘控制 概述 本文是2018年大数据峰会上的一些分享,关于在线业务,离线业务在ACK(阿里云容器 ...

  9. 苏宁大数据离线任务开发调度平台实践:任务调度模块架构设计

    https://www.infoq.cn/article/xTvBg1_9iUL0z5Pjf0Os 本文是苏宁大数据离线任务开发调度平台实践系列文章之上篇,详解苏宁的任务调度模块. 目 录 1. 绪言 ...

最新文章

  1. 职称计算机word2007难吗,职称计算机word2007原题
  2. python连接access数据库查询并打印出来_Python连接Access和读取Access数据库的例子
  3. URI和URL及URN的区别
  4. [html] 如何在页面引用外部的html页面?
  5. graph-easy使用简介
  6. STM 事务 ACID
  7. Java反编译工具,你知道几个?
  8. stm32怎么入门?数电模电单片机先学哪个?
  9. 用MarkDown写PPT
  10. FPGA深度学习加速(1) - Xilinx ug892-Vivado design flows overview (Vivado设计流程简述) - 阅读笔记
  11. Java是如何实现外卖订餐系统的
  12. A Game of Thrones(105)
  13. 热启动计算机的快捷键,电脑怎么设置U盘启动 各品牌电脑热启动快捷键大全-电脑教程...
  14. 计算机考研英语复试专有名词翻译
  15. PCB板布线经验~~
  16. 实验室5位直博生每人一篇 Science!她再获颁“世界杰出女科学家奖”
  17. 暴风影音官网、App 挂了​!老板被捕,高管全辞职,员工:以后工作向谁汇报?...
  18. linux系统sip网络电话,Yealink网络电话SIP-T38G绝对路径遍历漏洞
  19. python屏幕取词_GetWord 3.3 屏幕取词
  20. web服务启动不了解决流程

热门文章

  1. arduino学习——WS2812灯带
  2. css3的卡片折叠效果
  3. Open3d(六)——RGBD测程法
  4. python爬虫之通过pyquery爬取大众点评评论信息
  5. 权威数据发布丨各行业平均工资出炉 收入最高的是......
  6. 网络编辑器插件ckeditor+ckfinder配置
  7. 从chatGPT到语音回答雏形的python实现
  8. 猴年马月!掌握JAVA
  9. javascript定义数组的两种方式,获取各个元素的值
  10. 【代码审计】模板注入