数据仓库
- 数据仓库的基本概念
- 数据仓库的主要特征
- 数据仓库与数据库区别
- 数据仓库分层架构
- 数据仓库元数据管理
Hive简介
- 什么是Hive
- Hive的特点
- Hive架构
- Hive与Hadoop的关系
- Hive与传统数据库对比
- Hive的数据存储
Hive的安装
- 准备安装包
- 安装hive
- 安装mysql
- 修改hive配置文件
hive的三种交互模式
- 使用bin/hive登录，与hive进行交互
- 使用beeline连接hive服务，与hive进行交互
- 使用hql语句或hql脚本与hive进行交互

数据仓库

数据仓库的基本概念

数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。它出于分析性报告和决策支持目的而创建。
数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而不叫“工厂”的原因。

数据仓库的主要特征

面向主题的（Subject-Oriented ）
传统数据库中，最大的特点是面向应用进行数据的组织，各个业务系统可能是相互分离的。而数据仓库则是面向主题的。主题是一个抽象的概念，是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上，它是对应企业中某一宏观分析领域所涉及的分析对象。
操作型处理（传统数据）对数据的划分并不适用于决策分析。而基于主题组织的数据则不同，它们被划分为各自独立的领域，每个领域有各自的逻辑内涵但互不交叉，在抽象层次上对数据进行完整、一致和准确的描述。一些主题相关的数据通常分布在多个操作型系统中。
集成的（Integrated）
通过对分散、独立、异构的数据库数据进行抽取、清理、转换和汇总便得到了数据仓库的数据，这样保证了数据仓库内的数据关于整个企业的一致性。
数据仓库中的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库之前，必然要经过统一与综合，这一步是数据仓库建设中最关键、最复杂的一步，所要完成的工作有：
（1）要统一源数据中所有矛盾之处，如字段的同名异义、异名同义、单位不统一、字长不一致，等等。
（2）进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取数据时生成，但许多是在数据仓库内部生成的，即进入数据仓库以后进行综合生成的。
下图说明一个保险公司综合数据的简单处理过程，其中数据仓库中与“保险” 主题有关的数据来自于多个不同的操作型系统。这些系统内部数据的命名可能不同，数据格式也可能不同。把不同来源的数据存储到数据仓库之前，需要去除这些不一致。
非易失的（Non-Volatile）
操作型数据库主要服务于日常的业务操作，使得数据库需要不断地对数据实时更新，以便迅速获得当前最新数据，不至于影响正常的业务运作。在数据仓库中只要保存过去的业务数据，不需要每一笔业务都实时更新数据仓库，而是根据商业需要每隔一段时间把一批较新的数据导入数据仓库。
数据仓库的数据反映的是一段相当长的时间内历史数据的内容，是不同时点
的数据库快照的集合，以及基于这些快照进行统计、综合和重组的导出数据。
数据非易失性主要是针对应用而言。数据仓库的用户对数据的操作大多是数据查询或比较复杂的挖掘，一旦数据进入数据仓库以后，一般情况下被较长时间保留。数据仓库中一般有大量的查询操作，但修改和删除操作很少。因此，数据经加工和集成进入数据仓库后是极少更新的，通常只需要定期的加载和更新。
时变的（Time-Variant ）
数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、月份、季度或者年份有关。数据仓库的目的是通过分析企业过去一段时间业务的经营状况，挖掘其中隐藏的模式。虽然数据仓库的用户不能修改数据，但并不是说数据仓库的数据是永远不变的。分析的结果只能反映过去的情况，当业务变化后，挖掘出的模式会失去时效性。因此数据仓库的数据需要更新，以适应决策的需要。从这个角度讲，数据仓库建设是一个项目，更是一个过程。数据仓库的数据随时间的变化表现在以下几个方面。
（1）数据仓库的数据时限一般要远远长于操作型数据的数据时限。
（2）操作型系统存储的是当前数据，而数据仓库中的数据是历史数据。
（3）数据仓库中的数据是按照时间顺序追加的，它们都带有时间属性。

数据仓库与数据库区别

数据库与数据仓库的区别实际讲的是 OLTP 与 OLAP 的区别。
操作型处理，叫联机事务处理 OLTP（On-Line Transaction Processing，），也可以称面向交易的处理系统，它是针对具体业务在数据库联机的日常操作，通常对少数记录进行查询、修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等问题。传统的数据库系统作为数据管理的主要手段，主要用于操作型处理。
分析型处理，叫联机分析处理 OLAP（On-Line Analytical Processing）一般针对某些主题的历史数据进行分析，支持管理决策。
首先要明白，数据仓库的出现，并不是要取代数据库。

数据库是面向事务的设计，数据仓库是面向主题设计的。
数据库一般存储业务数据，数据仓库存储的一般是历史数据。
数据库设计是尽量避免冗余，一般针对某一业务应用进行设计，比如一张简单的User表，记录用户名、密码等简单数据即可，符合业务应用，但是不符合分析。数据仓库在设计是有意引入冗余，依照分析需求，分析维度、分析指标进行设计。
数据库是为捕获数据而设计，数据仓库是为分析数据而设计。

以银行业务为例。数据库是事务系统的数据平台，客户在银行做的每笔交易都会写入数据库，被记录下来，这里，可以简单地理解为用数据库记账。数据仓库是分析系统的数据平台，它从事务系统获取数据，并做汇总、加工，为决策者提供决策的依据。比如，某银行某分行一个月发生多少交易，该分行当前存款余额是多少。如果存款又多，消费交易又多，那么该地区就有必要设立ATM了。
显然，银行的交易量是巨大的，通常以百万甚至千万次来计算。事务系统是实时的，这就要求时效性，客户存一笔钱需要几十秒是无法忍受的，这就要求数据库只能存储很短一段时间的数据。而分析系统是事后的，它要提供关注时间段内所有的有效数据。这些数据是海量的，汇总计算起来也要慢一些，但是，只要能够提供有效的分析数据就达到目的了。
数据仓库，是在数据库已经大量存在的情况下，为了进一步挖掘数据资源、为了决策需要而产生的，它决不是所谓的“大型数据库”。

数据仓库分层架构

按照数据流入流出的过程，数据仓库架构可分为三层——源数据、数据仓库、数据应用。

源数据层（ODS）：此层数据无任何更改，直接沿用外围系统数据结构和数据，不对外开放；为临时存储层，是接口数据的临时存储区域，为后一步的数据处理做准备。
数据仓库层（DW）：也称为细节层，DW层的数据应该是一致的、准确的、干净的数据，即对源系统数据进行了清洗（去除了杂质）后的数据。
数据应用层（DA或APP）：前端应用直接读取的数据源；根据报表、专题分析需求而计算生成的数据。
数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL（抽取Extra, 转化Transfer, 装载Load）的过程，ETL是数据仓库的流水线，也可以认为是数据仓库的血液，它维系着数据仓库中数据的新陈代谢，而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。

数据仓库元数据管理

元数据（Meta Date），主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。一般会通过元数据资料库（Metadata Repository）来统一地存储和管理元数据，其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。
元数据是数据仓库管理系统的重要组成部分，元数据管理是企业级数据仓库中的关键组件，贯穿数据仓库构建的整个过程，直接影响着数据仓库的构建、使用和维护。

构建数据仓库的主要步骤之一是ETL。这时元数据将发挥重要的作用，它定义了源数据系统到数据仓库的映射、数据转换的规则、数据仓库的逻辑结构、数据更新的规则、数据导入历史记录以及装载周期等相关内容。数据抽取和转换的专家以及数据仓库管理员正是通过元数据高效地构建数据仓库。
用户在使用数据仓库时，通过元数据访问数据，明确数据项的含义以及定制报表。
数据仓库的规模及其复杂性离不开正确的元数据管理，包括增加或移除外部数据源，改变数据清洗方法，控制出错的查询以及安排备份等。

元数据可分为技术元数据和业务元数据。技术元数据为开发和管理数据仓库的IT 人员使用，它描述了与数据仓库开发、管理和维护相关的数据，包括数据源信息、数据转换描述、数据仓库模型、数据清洗与更新规则、数据映射和访问权限等。而业务元数据为管理层和业务分析人员服务，从业务角度描述数据，包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等，帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。
由上可见，元数据不仅定义了数据仓库中数据的模式、来源、抽取和转换规则等，而且是整个数据仓库系统运行的基础，元数据把数据仓库系统中各个松散的组件联系起来，组成了一个有机的整体。

Hive简介

什么是Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。
其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚至更进一步可以说hive就是一个MapReduce的客户端

Hive的特点

可扩展
Hive可以自由的扩展集群的规模，一般情况下不需要重启服务。
延展性
Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。
容错
良好的容错性，节点出现问题SQL仍可完成执行。

Hive架构

架构图

用户接口
包括CLI、JDBC/ODBC、WebGUI。其中，CLI(command line interface)为shell命令行；JDBC/ODBC是Hive的JAVA实现，与传统数据库JDBC类似；WebGUI是通过浏览器访问Hive。
元数据存储
通常是存储在关系数据库如mysql/derby中。Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。derby是hive自带的数据库，但是一般不用，一般都用mysql。
解释器、编译器、优化器、执行器
完成HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS 中，并在随后有MapReduce 调用执行。

Hive与Hadoop的关系

Hive利用HDFS存储数据，利用MapReduce查询分析数据。

Hive与传统数据库对比

Hive的数据存储

Hive中所有的数据都存储在 HDFS 中，没有专门的数据存储格式（可支持Text，SequenceFile，ParquetFile，ORC格式RCFILE等），SequenceFile是hadoop中的一种文件格式，文件内容是以序列化的kv对象来组织的。
只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive 就可以解析数据。
Hive 中包含以下数据模型：DB、Table，External Table，Partition，Bucket。

db：在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹
table：在hdfs中表现所属db目录下一个文件夹
external table：与table类似，不过其数据存放位置可以在任意指定路径
partition：在hdfs中表现为table目录下的子目录
bucket：在hdfs中表现为同一个表目录下根据hash散列之后的多个文件

Hive的安装

准备安装包

hive-1.1.0-cdh5.14.0.tar.gz，CDH5.14.0的hive安装包
mysql-connector-java-5.1.38.jar，mysql的驱动包

安装hive

发送tar包到安装了hadoop的机器，hive不用在集群每台机器都安装，安装一台即可；
解压tar到安装目录，tar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C /export/servers；
配置环境变量

vi /etc/profile编辑模式下，在profile中插入以下内容
export HIVE_HOME=/export/servers/hive-1.1.0-cdh5.14.0
export PATH=:$PATH:$HIVE_HOME/bin

安装mysql

使用rpm卸载系统自带的mysql

rpm -qa|grep mysql #查看本机有无自带mysql
rpm -e mysql软件的文件名 --nodeps #卸载系统自带的mysql

使用yum安装mysql软件，yum -y install mysql mysql-server mysql-devel
启动mysql服务，/etc/init.d/mysqld start
通过mysql自带的安装脚本对mysql进行设置，/usr/bin/mysql_secure_installation，设置如下：
登录mysql，mysql -uroot -p
给所有远程登录root的用户开启所有数据库、所有表、所有命令的权限

# 在mysql命令行输入
mysql> grant all privileges on *.* to 'root'@'%' identified by '123456' with grant option;
mysql> flush privileges;

all privileges，开启所有命令的权限，也可以指定开启insert、update、delete、selelct中某个或某几个命令的权限。
*.*，第一个*表示所有数据库，第二个*所有表。
'root'@'%'，表示将指定用户名的用户开放给哪些计算机，，“root”表示开放的是root用户，“%”表示所有可以访问到本机的计算机，可以简单理解为局域网里的计算机。
identified by '123456'，表示远程登录时用的密码，可以随便设置，与mysql本身的登录密码无关，但是最好设置成一致的或者简单好记的。
flush privileges，刷新，启用授权变更。

设置mysql开机启动

# 在linux命令行输入
chkconfig --add mysqld
chkconfig mysqld on

修改hive配置文件

拷贝hive安装目录下conf中的hive-env.sh.template为hive-env.sh，然后编辑hive-env.sh。

cd  /export/servers/hive-1.1.0-cdh5.14.0/conf
cp hive-env.sh.template hive-env.sh
vim hive-env.sh

编辑内容如下：

在hive安装目录下conf中新建文件hive-site.xml，文件中的内容如下：

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration><!-- 设置mysql所在的机器和端口，可以是机器名也可以是ip地址 --><!-- createDatabaseIfNotExist=true是指开启hive自动创建元数据数据库 --><property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://node03.hadoop.com:3306/hive?createDatabaseIfNotExist=true</value></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.jdbc.Driver</value></property><!-- 配置hive登录mysql的用户名 --><property><name>javax.jdo.option.ConnectionUserName</name><value>root</value></property><!-- 配置hive登录mysql密码 --><property><name>javax.jdo.option.ConnectionPassword</name><value>123456</value></property><property><name>hive.cli.print.current.db</name><value>true</value></property><property><name>hive.cli.print.header</name><value>true</value></property><property><name>hive.server2.thrift.bind.host</name><value>node03.hadoop.com</value></property>
<!--<property><name>hive.metastore.uris</name><value>thrift://node03.hadoop.com:9083</value></property>
-->
</configuration>

将之前准备的mysql-connector-java-5.1.38.jar放到hive安装目录下lib中。

hive的三种交互模式

使用bin/hive登录，与hive进行交互

由于之前配置过hive的环境变量，所以只需要在任意位置，使用hive即可，无需bin/hive了，这种方式已经过时，不推荐。

使用beeline连接hive服务，与hive进行交互

启动hive JDBC服务
启动hive JDBC服务，有两种方法，前台启动和后台启动，区别是前台启动需要一直将启动hive JDBC服务的窗口保留，否则窗口关闭服务也就退出了，而后台启动只是启动hive JDBC服务后可以关闭窗口，服务会在后台运行，可以用kill -9来关闭服务。

前台启动

cd  /export/servers/hive-1.1.0-cdh5.14.0
bin/hive --service hiveserver2

后台启动

cd  /export/servers/hive-1.1.0-cdh5.14.0
nohup bin/hive --service hiveserver2  2&>1 &

在配置了环境变量情况下，可以直接用hiveserver2。
2. 使用beeline连接JDBC服务

注意，这里的用户名和密码并不是mysql的用户名和密码，而是需要一个能够操作hdfs和mapreduce的Hadoop的用户名和密码，由于之前hadoop是在root用户下搭建和使用的，所以登录的是root用户，但并非mysql的root用户，mysql的登录方式在hive-site.xml已经设置过了。

使用hql语句或hql脚本与hive进行交互

使用 –e 参数来直接执行hql的语句

bin/hive -e "use myhive;select * from test;"

使用 –f 参数通过指定文本文件来执行hql的语句

vim hive.sql
use myhive;select * from test;
bin/hive -f hive.sql

使用sql语句或sql脚本与hive进行交互，直接通过bin/hive来执行hql语句或hql脚本中的语句，运行结束直接返回结果并退出hive，通过-f使用脚本的方式可以说是最实用的hive交互方式。

hadoop离线阶段（第十三节）数据仓库、hive简介、hive安装和hive的三种交互模式相关推荐

hadoop离线阶段（第二十三节）oozie简介、安装和使用及oozie与hue的整合
目录 oozie简介 oozie的介绍 oozie的架构 oozie的执行流程 oozie的组件介绍 oozie安装第一步:修改core-site.xml 第二步:上传oozie的安装包并解压第三 ...
hive简介以及安装配置
Hive简介 1.1在hadoop生态圈中属于数据仓库的角色.他能够管理hadoop中的数据,同时可以查询hadoop中的数据. 本质上讲,hive是一个SQL解析引擎.Hive可以把SQL查询转换为 ...
php面向对象有哪三种访问控制模式,第三节访问控制的实现
第三节访问控制的实现面向对象的三大特性(封装.继承.多态),其中封装是一个非常重要的特性.封装隐藏了对象内部的细节和实现,使对象能够集中而完整的描述并对应一个具体的事物,只提供对外的访问接口,这样 ...
window10离线安装net3.5的三种方法
客户内网电脑使用公司客户端需要.net5.3插件.整理了3种离线安装的方法建议直接用第三种第一种:下载NetFx3.cab文件,并放到Win10系统盘C:\Windows\文件夹里. 然后以管理员 ...
Azure数据仓库表中的数据经常使用的三种分布策略(hash、round_robin 或 replicated)简介
目录 (一)前言 (二)基础概念 1. Azure Synapse Analytics概念 2. Synapse SQL 体系结构组件 3. Azure 存储 4. 控制节点 5. 计算节点 6. 数 ...
2021-12-30大数据学习日志——Hadoop离线阶段——HDFS
学习目标理解分布式文件存储的概念与实现掌握HDFS分块存储.副本机制等特性学会shell操作HDFS 掌握HDFS读写流程理解NameNode元数据管理机制理解SecondaryNameNo ...
consul命令行查看服务_Go语言微服务架构实战：第十三节微服务管理--Docker安装及运行consul节点...
微服务管理--Docker安装及运行consul节点搭建集群在真实的生产环境中,需要真实的部署consul集群.在一台机器上想要模拟多台集群部署的效果,有两种方案:一种是借助虚拟机,另一种是借助容 ...
linux 的常用命令---------第十阶段（虚拟机三种网络模式）
虚拟机三种网络模式相同模式下的各个虚拟机之间都可以通信----两台虚拟机若都是 nat模式或桥接模式或仅主机模式,则这两台虚拟机之间是可以通信的. 桥接模式: (配置桥接模式的虚拟机可作为独 ...
内网 centos7 离线安装rpm包的三种方法
一.使用--downloadonly参数此种方法的优点是下载的rpm包可以下载至同一目录中. (一)互联网电脑下载rpm包 1.查看互联网电脑是否支持"只下载不安装"功能执行y ...

hadoop离线阶段（第十三节）数据仓库、hive简介、hive安装和hive的三种交互模式

目录