文章目录

  • 目录
    • 1.什么是数据仓库?
      • 1.1数据仓库概念
      • 1.2传统数据仓库面临的挑战
      • 1.3 Hive介绍
      • 1.4 Hive与传统数据库的对比
      • 1.5 Hive在企业中的部署与应用
    • 2.Hive系统架构
    • 3.Hive工作原理
      • 3.1 SQL转换为MapReduce作业的基本原理
      • 3.2 Hive中SQL查询转换MapReduce作业的过程
    • 4.Hive HA基本原理
    • 5.Impala
      • 5.1 Impala介绍
      • 5.2 Impala系统架构
      • 5.3 Impala查询执行过程
      • 5.4 Impala和Hive的区别
    • 6.Hive编程实践
      • 6.1 Hive的安装和配置
      • 6.2 Hive的基本数据类型
      • 6.3 Hive的基本操作
      • 6.4 Hive的应用实例(wordCount)
      • 6.5 Hive的优势
    • 7.总结

目录

1.什么是数据仓库?

1.1数据仓库概念

对历史数据变化的统计,从而支撑企业的决策。比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源。

1.2传统数据仓库面临的挑战

1.3 Hive介绍



Hbase支持快速的交互式的大数据应用
pig,Hive支持批量式的数据分析业务

1.4 Hive与传统数据库的对比

1.5 Hive在企业中的部署与应用

2.Hive系统架构

Microsoft推出的ODBC(Open Database Connectivity)技术 [1] 为异质数据库的访问提供了统一的接口
JDBC(Java Data Base Connectivity,java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成。
CIL (Common Intermediate Language) 公共中间语言

3.Hive工作原理

3.1 SQL转换为MapReduce作业的基本原理


3.2 Hive中SQL查询转换MapReduce作业的过程



4.Hive HA基本原理

5.Impala

5.1 Impala介绍

5.2 Impala系统架构


5.3 Impala查询执行过程



5.4 Impala和Hive的区别



6.Hive编程实践

参考博客

6.1 Hive的安装和配置

6.2 Hive的基本数据类型


6.3 Hive的基本操作






6.4 Hive的应用实例(wordCount)

6.5 Hive的优势

7.总结

大数据学习(08)--Hadoop中的数据仓库Hive相关推荐

  1. 大数据学习之hadoop——07阿里云服务器搭建集群以及遇到的问题解决办法

    在这段服务器搭建伪分布集群中我遇到了如下问题 1.进入远程连接界面却不知道密码 2.使用MobaXtem工具连接服务器失败 3.集群格式化失败 4.web访问失败 按照下面的所有步骤操作.以上的问题都 ...

  2. 大数据学习(三十一)数据仓库如何处理缓慢变化维

    以下内容结合了<大数据之路-阿里巴巴大数据实践>书中的内容,就如何处理缓慢变化维话题进行展开. 前言:维度的属性也是会发生变化的,只不过相较于事实表而言,变化的速度是极其缓慢的,那我们是否 ...

  3. 大数据学习之Hadoop生态圈(一)

    文章目录 前言 1.什么是hadoop 2.Hadoop起源 3.Hadoop的四大特点 4.Hadoop的三大发行版本 5.Hadoop的版本迭代 6.Hadoop的优点及缺点 7.Hadoop组成 ...

  4. 初识大数据(三. Hadoop与MPP数据仓库)

    MPP代表大规模并行处理,这是网格计算中所有单独节点参与协调计算的方法. 是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果. MPP DBMS是 ...

  5. 2021-12-30大数据学习日志——Hadoop离线阶段——HDFS

    学习目标 理解分布式文件存储的概念与实现 掌握HDFS分块存储.副本机制等特性 学会shell操作HDFS 掌握HDFS读写流程 理解NameNode元数据管理机制 理解SecondaryNameNo ...

  6. 大数据学习1 - hadoop环境搭建及操作

    目录 目录 目录 一.什么是大数据? 二.什么是hadoop? 1.Hadoop核心组件 2.HDFS架构 3.MapReduce 3.Yarn架构 ​编辑 三.Hadoop的集群模式 1.完全分布模 ...

  7. 大数据学习笔记-hadoop(1)

    目录 前言 一.什么是大数据? 二.Ubuntu基础配置 1.安装Ubuntu20.04 2.修改系统语言为中文 3.修复vi编辑器 4.使用root账户 5.网络配置 6.配置源 7.更新 三.ss ...

  8. 大数据学习心得--hadoop框架

    前言 这是本人第一次写博客,技术不够,不敢妄谈一些太过前沿的技术的东西,想简单写写自己学过的东西,就当温故而知新了.本篇便以hadoop框架为主题来写点东西.众所周知,hadoop框架出现已久,had ...

  9. 大数据笔记30—Hadoop基础篇13(Hive优化及数据倾斜)

    Hive优化及数据倾斜 知识点01:回顾 知识点02:目标 知识点03:Hive函数:多行转多列 知识点04:Hive函数:多行转单列 知识点05:Hive函数:多列转多行 知识点06:Hive函数: ...

最新文章

  1. html5/css3响应式布局介绍及设计流程
  2. 【软件设计师】2020-08-07
  3. Java8 新特性 Optional
  4. C#LeetCode刷题之#234-回文链表(Palindrome Linked List)
  5. verdi中波形怎么看间距_小间距led显示屏金线封装真伪怎么看?
  6. zoj 3620 Escape Time II dfs
  7. Android编译32/64位so or bin(Android.bp or Android.mk)
  8. AXI 基础第 4 讲 - 使用 AXI VIP 作为 AXI4 主接口的协议检查工具
  9. 电脑知识 - bin文件夹是什么
  10. 本学期计算机课总结,大学生计算机基础学期总结
  11. 数据库管理及常用语句
  12. Review | 科学禁食时代的来临
  13. python项目之 路由器抓取器
  14. 前端基础(十一、JS 输出、变量、基本数据类型)
  15. DLL文件是什么东东?
  16. bat脚本实现监控进程功能-自动重启
  17. 2018年传感器新技术一览
  18. FreeCAD编译、安装、开发环境
  19. Android Multidex(dex分包)
  20. 一个因变量四个自变量,只有数据如何用1stopt拟合得到非线性方程

热门文章

  1. 基于C8051F040单片机的CAN总线测试模式研究
  2. 慕课乐学python单元测试答案_中国大学慕课第三章单元测试答案_乐学软件工程免费答案...
  3. 四大开源分布式存储_ipfs分布式存储行业面临着四大主要风险,你知道是哪些吗?...
  4. 【转】03.Dicom 学习笔记-DICOM C-Get 消息服务
  5. 【转】ABP源码分析二十六:核心框架中的一些其他功能
  6. 【转】细说.NET 中的多线程 (一 概念)
  7. 【转】D365 FO第三方集成(三)---服务实现
  8. 连接 Windows 防火墙
  9. 依赖注入和控制反转的理解,写的太好了。
  10. LNK2019:无法解析的外部符号