Centos Linux 单机安装 Hive 、使用 Hive

视频教程链接:https://www.bilibili.com/video/BV1Rv4y117NR/

1. Hive 简介

  1. hive 是基于 Hadoop 构建的一套数据仓库分析系统;

  2. hive 通过 SQL 查询方式来分析存储在 HDFS 中的数据:可以将结构化的数据文件映射为一张数据库表,并提供完整的类 SQL 查询功能,这套 SQL 名为 Hive SQL,简称 HQL;

  3. hive 可以将 HQL 语句转换为 MapReduce 任务运行;

  4. hive 的表数据存储与 HDFS;而其元数据存储与其他数据库(如 Derby、MySQL),元数据包括 hive 表的表名、列、分区、属性(是否为外部表等)、表数据所在 HDFS 目录等;

  5. hive 支持的存储格式包括 TextFile、SequenceFile、RCFile、Avro Files、ORC Files、Parquet。

  6. hive 默认没有开启更新(update)和删除(delete)功能;

  7. hive 不适合用于联机(online)事务处理,也不提供实时查询功能;

  8. hive 最适合应用在基于大量不可变数据的批处理作业。

2. 准备工作

2.1. 拥有一台 Centos Linux 机器

参考文章:

《VMware 安装 Centos 7 Linux 虚拟机》(含b站视频教程链接):
https://www.hanshuixin.com/app/blog/detail/839c494401839c52b7642c9380920001

2.2. Centos Linux 安装好 JDK、配置好环境变量

参考文章:

《Centos Linux 安装 JDK 8、配置环境变量》(含b站视频教程链接):

https://www.hanshuixin.com/app/blog/detail/839c494401839e49fa8a2c9380920002

2.3. 在 CentOS Linux 上安装好 Hadoop

参考文章:

《Centos Linux 安装单机 Hadoop(HDFS)》(含b站视频教程链接):

https://www.hanshuixin.com/app/blog/detail/839c49440183a41b4a732c9380920003

2.4. 在 CentOS Linux 上安装好 MySQL

参考文章:

《Centos Linux 离线安装 MySQL 5.7、使用MySQL》(含b站视频教程链接):

https://www.hanshuixin.com/app/blog/detail/83a48b1901847349507d2c9380920002

2.5. 下载 Hive

hive 官网:

https://hive.apache.org/

hive 安装包官网下载地址(官网,下载速度慢):

https://dlcdn.apache.org/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz

hive 安装包国内镜像下载链接(清华大学开源软件镜像站,下载速度快):

https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz

3. 安装、配置 Hive

3.1. 上传 Hive 安装包、解压、放到安装位置

将安装包 apache-hive-3.1.3-bin.tar.gz 上传到 /root/ 目录。

# 进入到root目录
cd /root
# 解压
tar -zxvf apache-hive-3.1.3-bin.tar.gz
# 创建安装目录
mkdir /usr/local/hive
# 将解压后的hive挪到创建的安装目录
mv /root/apache-hive-3.1.3-bin/ /usr/local/hive/
# 进入到安装目录
cd /usr/local/hive/apache-hive-3.1.3-bin/
# 查看
ll

3.2. 配置 hive

  1. hive-site.xml

    在 hive 安装目录的 conf 目录下,创建 hive-site.xml 配置文件。并将以下内容写入其中。

    vi /usr/local/hive/apache-hive-3.1.3-bin/conf/hive-site.xml
    
    <configuration><property><name>javax.jdo.option.ConnectionDriverName</name><!--hive 元数据库的JDBC驱动类,这里选则 MySQL--><value>com.mysql.cj.jdbc.Driver</value></property><property><name>javax.jdo.option.ConnectionURL</name><!--hive_metadata 为 hive 元数据在 MySQL 中的库名,注意字符集设置,由于是在XML中,URL中的&需要转译为&--><value>jdbc:mysql://127.0.0.1:3306/hive_metadata?createDatabaseIfNotExist=true&amp;characterEncoding=UTF-8&amp;useSSL=false</value></property><property><name>javax.jdo.option.ConnectionUserName</name><!--MySQL登录账户名--><value>root</value></property><property><name>javax.jdo.option.ConnectionPassword</name><!--MySQL登录密码--><value>123456</value></property><property><!--hive 表数据在 HDFS 的默认位置。创建内部表时,如果不指定 location,表数据则存储与该位置。--><name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse/internal</value></property><property><!--hive 外部表数据在 HDFS 的默认位置。创建外部表时,如果不指定 location,表数据则存储与该位置。--><name>hive.metastore.warehouse.external.dir</name><value>/user/hive/warehouse/external</value></property><property><name>hive.server2.enable.doAs</name><value>false</value></property></configuration>
    
  2. hive-env.sh

    将 hive 安装目录的 conf 目录下的 hive-env.sh.template 复制一份改名为 hive-env.sh

    cp /usr/local/hive/apache-hive-3.1.3-bin/conf/hive-env.sh.template /usr/local/hive/apache-hive-3.1.3-bin/conf/hive-env.sh
    

    ive-env.sh 进行修改,将 HADOOP_HOME 的注释放开,其值改为本机 Hadoop 的安装目录 /usr/local/hadoop/hadoop-3.3.4 。即:

    vi /usr/local/hive/apache-hive-3.1.3-bin/conf/hive-env.sh
    
    HADOOP_HOME=/usr/local/hadoop/hadoop-3.3.4
    

3.3. 放置 MySQL jdbc jar包

Maven 中央仓库下载地址:

https://repo1.maven.org/maven2/mysql/mysql-connector-java/8.0.30/mysql-connector-java-8.0.30.jar

mysql-connector-java-8.0.30.jar 上传到 /usr/local/hive/apache-hive-3.1.3-bin/lib 下。

3.4. 设置环境变量

vi /etc/profile

在文件末尾添加以下内容:

export HIVE_HOME=/usr/local/hive/apache-hive-3.1.3-bin
export PATH=$HIVE_HOME/bin:$PATH

使环境变量生效:

# 运行配置文件
source /etc/profile
# 检查 PATH 中是否包含 $HIVE_HOME/bin 对应的绝对路径
echo $PATH

3.5. 初始化元数据库

初始化元数据库,指定元数据库类型为 MySQL 。

# 查看MySQL是否启动
service mysqld status
# 如果没有启动,则启动MySQL
service mysqld start
schematool -initSchema -dbType mysql

注:schematool 命令位于 /usr/local/hive/apache-hive-3.1.3-bin/bin/ ,已经配置在环境变量path中,可以直接使用。

3.6. 启动 Hadoop

Hive 是依赖 MySQL 和 Hadoop 的,所以,先启动 MySQL、Hadoop。

# 查看Hadoop是否启动
jps -l |grep hadoop
# 如果没有启动,则启动Hadoop
start-all.sh

3.7. 编写后台启动hive的脚本

前面图中提到过 hive 的三种用户接口。

三种用户接口的前台启动方式分别如下:

# Client,JDBC/ODBC + hive Server
hive --service metastore
hive --service hiveserver2
# CLI,命令行 + hive 副本
hive --service cli
# 浏览器,WUI
hive --service hwi

此处选择第一种,同时启动 metastore。编写后台启动脚本:

vi /usr/local/hive/apache-hive-3.1.3-bin/bin/start-hive-metastore-hiveserver2.sh

写入以下内容:

#!/bin/bash
nohup hive --service metastore >> /usr/local/hive/apache-hive-3.1.3-bin/log/metastore.log 2>&1 &
nohup hive --service hiveserver2 >> /usr/local/hive/apache-hive-3.1.3-bin/log/hiveserver2.log 2>&1 &
# 赋予启动脚本执行权限
chmod +x /usr/local/hive/apache-hive-3.1.3-bin/bin/start-hive-metastore-hiveserver2.sh
# 创建日志目录:
mkdir /usr/local/hive/apache-hive-3.1.3-bin/log

3.8. 启动hive

start-hive-metastore-hiveserver2.sh

查看两个日志,无报错即可:

tail -1000f /usr/local/hive/apache-hive-3.1.3-bin/log/metastore.log
tail -1000f /usr/local/hive/apache-hive-3.1.3-bin/log/hiveserver2.log

3.9. 放行端口

# 防火墙放行 8042 tcp 端口,Hadoop http服务端口,可用于在浏览器查看yarn日志
firewall-cmd --zone=public --add-port=8042/tcp --permanent
# 防火墙放行 10000 tcp 端口,hive jdbc连接端口
firewall-cmd --zone=public --add-port=10000/tcp --permanent
# 防火墙重新加载
firewall-cmd --reload

3.10. yarn-site.xml 添加 Hadoop 的类路径

查看 Hadoop 的类路径

hadoop classpath

编辑 Hadoop 的 yarn-site.xml 文件

vi /usr/local/hadoop/hadoop-3.3.4/etc/hadoop/yarn-site.xml

添加以下配置项:

    <property><name>yarn.application.classpath</name><!-- 输入刚才返回的Hadoop classpath路径 --><value>/usr/local/hadoop/hadoop-3.3.4/etc/hadoop:/usr/local/hadoop/hadoop-3.3.4/share/hadoop/common/lib/*:/usr/local/hadoop/hadoop-3.3.4/share/hadoop/common/*:/usr/local/hadoop/hadoop-3.3.4/share/hadoop/hdfs:/usr/local/hadoop/hadoop-3.3.4/share/hadoop/hdfs/lib/*:/usr/local/hadoop/hadoop-3.3.4/share/hadoop/hdfs/*:/usr/local/hadoop/hadoop-3.3.4/share/hadoop/mapreduce/*:/usr/local/hadoop/hadoop-3.3.4/share/hadoop/yarn:/usr/local/hadoop/hadoop-3.3.4/share/hadoop/yarn/lib/*:/usr/local/hadoop/hadoop-3.3.4/share/hadoop/yarn/*</value></property>

重启 Hadoop 。

stop-all.sh
start-all.sh

4. 使用 Hive

4.1. 使用 hive 自带的客户端工具 beeline 连接 hive

beeline -u jdbc:hive2://127.0.0.1:10000 -n root

注: -u指的是 hive 的 JDBC URL ;-n 指的是 HDFS 用户名。

查看所有数据库:

show databases;

结果:

+----------------+--+
| database_name  |
+----------------+--+
| default        |
+----------------+--+
1 row selected (1.591 seconds)

使用数据库 default :

use default;

查看数据库 default 下的所有表:

show tables;

目前没有表。

创建表,表名t_gdp,用于记录每个县区的GDP。

CREATE TABLE t_gdp(f_year VARCHAR(100),f_province VARCHAR(100),f_city VARCHAR(100),f_county VARCHAR(100),f_gdp DOUBLE
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '|'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

压缩后:

CREATE TABLE t_gdp(f_year VARCHAR(100),f_province VARCHAR(100),f_city VARCHAR(100),f_county VARCHAR(100),f_gdp DOUBLE) ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' LINES TERMINATED BY '\n' STORED AS TEXTFILE;

CRT复制一个连接,创建一个本地文本文件 t_gdp_text.txt

vi /tmp/t_gdp_text.txt

写入数据:

2021|s_1|ci_1|co_a|0.06|
2021|s_1|ci_2|co_b|0.05|
2021|s_1|ci_3|co_c|0.04|
2021|s_1|ci_4|co_d|0.03|
2021|s_2|ci_5|co_e|0.07|
2021|s_2|ci_6|co_f|0.08|
2021|s_2|ci_7|co_g|0.08|
2021|s_2|ci_8|co_h|0.09|

将文本文件加载到 hive 表:

load data local inpath '/tmp/t_gdp_text.txt' into table t_gdp;

注:local 表示本地文件;除了加载本地文件外,还可以加载 HDFS 上的文件到表中,去掉 local 即可,使用 load data inpath 'HDFS文件路径' into table 表名;

查询所有数据:

select * from default.t_gdp;

查询结果:

统计 2021 年每个省的 GDP:

select f_province,sum(f_gdp) from t_gdp where f_year='2021' group by f_province;

查询结果:

可以在 HDFS 上看到表数据:

hadoop fs -cat /user/hive/warehouse/internal/t_gdp/t_gdp_text.txt

4.2. DBeaver 连接 hive

DBeaver 官网下载页面:

https://dbeaver.io/download/

DBeaver 安装过程:略。

打开驱动管理器:

输入 hive 搜索并编辑hiev驱动:

添加 hive-jdbc 依赖。

依赖声明填写以下内容:

<dependency><groupId>org.apache.hive</groupId><artifactId>hive-jdbc</artifactId><version>1.2.2</version><classifier>standalone</classifier>
</dependency>

添加 hadoop-core 依赖。

依赖声明填写以下内容:

<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-core</artifactId><version>1.2.1</version>
</dependency>

点击 “下载/更新” > “下载”。

创建连接:

填写连接信息:

查询所有数据:

select * from default.t_gdp;

查询结果:

统计 2021 年每个省的 GDP:

select f_province,sum(f_gdp)
from t_gdp
where f_year='2021'
group by f_province;

查询结果:

可以用 DBeaver 连上 hive 的元数据库(MySQL - hive_metadata)看到元数据。

元数据-表名:

元数据-列名:

Centos Linux 单机安装 Hive 、使用 Hive相关推荐

  1. Centos Linux 单机安装 HBase 、使用 HBase

    Centos Linux 单机安装 HBase .使用 HBase 视频教程链接:https://www.bilibili.com/video/BV1Z84y1z787/ 1. HBase 简介 HB ...

  2. 【转】在centos linux上安装jdk7

    [转]在centos linux上安装jdk7 在这里下载jdk7rpm安装包,并上传到centos服务器上 http://www.oracle.com/technetwork/java/javase ...

  3. linux操作系统安装自定义分区,CentOS linux操作系统安装图文教程

    目前linux操作系统安装方法非常多,我们可以通过一些常用的U盘启动盘工具制作对应的启动 U 盘后,然后再进行安装 Linux 系统即可.以下是今天给大家分享的 CentOS linux操作系统安装图 ...

  4. Centos Linux 离线安装 MySQL 5.7、使用MySQL

    Centos Linux 离线安装 MySQL 5.7.使用MySQL 视频教程链接:https://www.bilibili.com/video/BV1Nv4y1m7u4/ 1. MySQL 简介 ...

  5. VirtualBox 安装以及 CentOS Linux 系统环境安装教程

    一.VirtualBox 安装教程 先去官网下载 然后一直点下一步就行了. 这里出现了 Windows 安全中心的提示,选择 安装: VirtualBox 安装完成. 二.CentOS Linux 系 ...

  6. ClickHouse-入门及Linux单机安装

    ClickHouse 入门 ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库(DBMS),使用 C++语言编写,主要用于在线分析处理查询(OLAP)(适合一次写入多 ...

  7. (翻译) MongoDB(10) 在 Red Hat 企业版或者 Centos Linux 上安装MongoDB社区版

    概述 使用这个教程在 Red Hat 企业版 Linux 或者 CentOS6/7 Linux 使用 .rpm 软件包安装 MongoDB 社区版. 虽然一些发行版包含自己的 MongoDB 软件包, ...

  8. hive单机安装 beeline连接hive无法连接

    文章目录 前提 解压 前提 hive集群安装,连接mysql hadoop单节点配置 解压 注意版本号 lcc@localhost hive$ pwd /Users/lcc/soft/hive lcc ...

  9. 在CentOS Linux上安装oracle11g之二 安装oracle11g

    现有机器配置: CPU:英特尔双核1.8G 内存:3G 硬盘:220G 安装前硬件准备建议: Swap分区必须要3G以上,最好在安装CentOS5.2时就分配好3G以上的空间. 硬盘不少于10G吧 安 ...

最新文章

  1. 零基础ui设计培训一定要知道字体设计规则
  2. python转化为字符串格式_Python格式化字符串~转
  3. python 进程间通信效率_Python进程间通信 multiProcessing Queue队列实现详解
  4. Docker端口映射错误的解决方法
  5. 【PM模块】维护处理的控制和报告
  6. 微机常见硬盘故障分析及检测
  7. Leveldb二三事
  8. Android Studio如何减小APK体积
  9. 全民营销时代,让私域流量变成业务增量需要几步?
  10. python 二维数组长度_谈一谈多维数组
  11. Discuz x1.0 修改游客浏览图片、附件权限
  12. SQL ALTER TABLE 语句在项目中的使用
  13. server2012和2016提示wlanapi.dll丢失问题
  14. 二次规划(quadratic programming)
  15. 如何去追女生,看了你就成功了一半
  16. python运行出玫瑰花的代码_一支玫瑰 - python代码库 - 云代码
  17. 敏捷开发scrum模型
  18. 在Xcode8中使用Swift2.3
  19. 幻灯播放主题图片插件thread_slide_for_discuz x2 适合户外 摄影类论坛
  20. 数字转换为中文大写(钱数)

热门文章

  1. 三十五岁失业的程序员,后来都干什么去了?
  2. 创新药物研究核心技术—计算机辅助药物设计
  3. win10计算机添加右键菜单,win10怎么添加右键菜单
  4. 【MATLAB航空航天工具箱】学习笔记--采用星历评估日行迹
  5. python日期时间_python日期和时间的操作方法汇总
  6. 如何理解WPF中的样式(Style)与模板ControlTemplate
  7. phpStrom+google谷歌浏览器+debug断点调试php程序
  8. 《高性能网站建设进阶指南》
  9. Mir2Ei Avi播放修复
  10. java调用libreoffice_JAVA实现LibreOffice转换PDF文档