一、 Hive 基本操作

1. 数据库操作(增、删、改、查)

1.1 创建数据库

create database if not exists test_001;

使用数据库
use test_001;

说明：hive 的表存放位置模式是由 hive-site.xml 当中的一个属性指定的，默认是存放在该配置文件设置的路径下，也可在创建数据库时单独指定存储路径。

hive.metastore.warehouse.dir
/user/hive/warehouse

1.2 创建数据库并指定位置

create database test_002 location ‘/user/hive/warehouse/hfc01.db’;

1.3 设置数据库属性信息

数据库有一些描述性的属性信息，可以在创建时添加：

create database test_003 with dbproperties(‘owner’=‘Candy_W’,‘date’=‘20211101’,‘env’=‘beta’)

1.4 查看数据库更多详细信息

desc database extended test_003;

1.5 查询数据库

与mysql查询语句是一样的语法

#查看所有数据库
show databases;

1.6 删除数据库

删除一个空数据库，如果数据库下面有数据表，那么就会报错

drop database test_002;

强制删除数据库，包含数据库下面的表一起删除(请谨慎操作)

drop database test_002 cascade;（级联删除；和数据一样）

2. 数据库表操作(增、删、改、查)

2.1 表创建语句格式(不区分大小写)

[]里的属性为可选属性，不是必须的，但是如果有可选属性，会使 sql 语句的易读性更好，更标准与规范。

例如：[comment ‘字段注释信息’][comment ‘表的描述信息’]等，[external]属性除外

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name(
column_name data_type [comment ‘字段注释信息’]
column_name data_type [comment ‘字段注释信息’]
…
[comment ‘表的描述信息’]
[PARTITIONED BY(column_name data_type, …)]
[CLUSTERED BY (column_name, column_name, …)
[SORTED BY(col_name [ASC|DESC], …)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION ‘指定表在 hdfs 中的存储路径’]
)

2.2 建表语句参数说明

CREATE TABLE
创建一个指定名字的表，如果相同名字的表已存在，则抛出异常提示：表已存在，使用时可以使用IF NOT EXISTS语句来忽略这个异常。

如果创建的表名已存在，则不会再创建，也不会抛出异常提示：表已存在。否则则自动创建该表。

EXTERNAL
顾名思义是外部的意思，此关键字在建表语句中让使用者可以创建一个外部表，如果不加该关键字，则默认创建内部表。

外部表在创建时必须同时指定一个指向实际数据的路径（LOCATION），Hive在创建内部表时，会将数据移动到数据仓库指向的路径；

若创建外部表，仅记录数据所在的路径，不对数据的位置作任何改变。

内部表在删除后，其元数据和数据都会被一起删除。
外部表在删除后，只删除其元数据，数据不会被删除。

COMMENT
用于给表的各个字段或整张表的内容作解释说明的，便于他人理解其含义。
PARTITIONED BY
区分表是否是分区表的关键字段，依据具体字段名和类型来决定表的分区字段。
CLUSTERED BY
依据column_name对表进行分桶，在 Hive 中对于每一张表或分区，Hive 可以通过分桶的方式将数据以更细粒度进行数据范围划分。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。
SORTED BY
指定表数据的排序字段和排序规则，是正序还是倒序排列。
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’
指定表存储中列的分隔符，这里指定的是’\t’，也可以是其他分隔符。
STORED AS SEQUENCEFILE|TEXTFILE|RCFILE
指定表的存储格式，如果文件数据是纯文本格式，可以使用STORED AS TEXTFILE，如果数据需要压缩，则可以使用STORED AS SEQUENCEFILE。
LOCATION
指定 Hive 表在 hdfs 里的存储路径，一般内部表（Managed Table）不需要自定义，使用配置文件中设置的路径即可。
如果创建的是一张外部表，则需要单独指定一个路径。

2.3 Hive创建表的三种方式

使用create table语句创建表
例子：

create table if not exists t_student(
id int,
s_name string,
s_age int)
partitioned by(date string)
row format delimited fields terminated by ‘\t’;
以换行进行；也可以使用‘，’
2. 使用create table … as select…语句创建表
例子：

create table sub_student as select * from t_student;
使用 create table … as select …语句来创建新表sub_student，此时sub_student 表的结构及表数据与 t_student 表一模一样，相当于直接将 t_student 的表结构和表数据复制一份到 sub_student 表。

注意：
(1). select 中选取的列名（如果是 * 则表示选取所有列名）会作为新表 sub_student 的列名。

(2). 该种创建表的方式会改变表的属性以及结构，例如不能是外部表，只能是内部表，也不支持分区、分桶。

如果as select后的表是分区表，并且使用select *，则分区字段在新表里只是作为字段存在，而不是作为分区字段存在。

在使用该种方式创建时，create 与 table 之间不能加 external 关键字，即不能通过该种方式创建外部目标表，默认只支持创建内部目标表。

(3). 该种创建表的方式所创建的目标表存储格式会变成默认的格式textfile。

3.使用like语句创建表
例子：

create table sub1_student like t_student;

注意：
(1). 只是将 t_student 的表结构复制给 sub1_student 表。

(2). 并不复制 t_student 表的数据给 sub1_student 表。

(3). 目标表可以创建为外部表，即:

create external（外部的） table sub2_student like t_student;

二、脚本化运行

大量的hive查询任务，如果用交互式shell来进行输入的话，显然效率及其低下，因此，生产中更多的是使用脚本化运行机制：

该机制的核心点是：hive可以用一次性命令的方式来执行给定的hql语句

[root@hadoop06 ~]# hive -e “use db_order; select * from student;”

然后，进一步，可以将上述命令写入shell脚本中，以便于脚本化运行hive任务，并控制、调度众多hive任务，示例如下：

[root@hd2 ~] vi t_order_etl.sh

代码如下：

#!/bin/bash
hive -e “select * from db_order.t_order”
hive -e “select * from default.t_user”
hql=“create table default.t_bash as select * from db_order.t_order”
hive -e “$hql”

shell 可以直接用：

[root@hd2 ~] sh t_order_et1.sh

三、内部表和外部表

内部表(MANAGED_TABLE)：表目录按照hive的规范来部署，位于hive的仓库目录/user/hive/warehouse中

1、建表语句

create table students
(
id bigint,
name string,
age int,
school string,
class string
)
#指定分隔符（下面语句表示数据以逗号分隔开）
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’
#手动指定该内部表表格创建在HDFS下的/user/hive/warehouse目录内，也可以不指定，默认存放/user/hive/warehouse下

2、存储位置

内部表数据存储的位置是hive在hdfs中存在默认的存储路径，即default数据库（默认：/user/hive/warehouse）

3、管理主体

内部表的数据是Hive自身管理，创建内部表时，会将数据移动到数据仓库指向的路径

4、内部表转换为外部表

alter table table_name set tblproperties(‘EXTERNAL’=‘TRUE’);
可以通过 desc formatted 表名来查看表的属性

5、数据删除问题

删除内部表会直接删除元数据（metadata）及存储数据，对内部表的修改会将修改直接同步给元数据

例子：

内部表：
create table stu1(id int,name string,age int,address string)
row format delimited fields terminated by ‘,’;
缺点：在删除表的时候，数据会跟着表一起被删除掉，容易造成数据的丢失