数据交互工具 -- HUE
相关资料包:https://pan.baidu.com/s/1y0cmzWN9VwrXVzSKEeIG1Q?pwd=5j0o
1、Hue概述
Hue(Hadoop User Experience)是一个开源的 Apache Hadoop UI 系统,最早是由Cloudera Desktop 演化而来,由 Cloudera 贡献给开源社区,它是基于 PythonWeb 框架 Django 实现的。通过使用 Hue 可以在浏览器端的 Web 控制台上与Hadoop 集群进行交互来分析处理数据,例如操作 HDFS 上的数据,运行MapReduce Job 等等。Hue所支持的功能特性集合:
- 默认基于轻量级sqlite数据库管理会话数据,用户认证和授权,可以自定义为MySQL、Postgresql,以及Oracle
- 基于文件浏览器(File Browser)访问HDFS
- 基于Hive编辑器来开发和运行Hive查询
- 支持基于Solr进行搜索的应用,并提供可视化的数据视图,以及仪表板(Dashboard)
- 支持基于Impala的应用进行交互式查询
- 支持Spark编辑器和仪表板(Dashboard)
- 支持Pig编辑器,并能够提交脚本任务
- 支持Oozie编辑器,可以通过仪表板提交和监控Workflow、Coordinator和Bundle
- 支持HBase浏览器,能够可视化数据、查询数据、修改HBase表
- 支持Metastore浏览器,可以访问Hive的元数据,以及HCatalog
- 支持Job浏览器,能够访问MapReduce Job(MR1/MR2-YARN)
- 支持Job设计器,能够创建MapReduce/Streaming/Java Job
- 支持Sqoop 2编辑器和仪表板(Dashboard)
- 支持ZooKeeper浏览器和编辑器
- 支持MySql、PostGresql、Sqlite和Oracle数据库查询编辑器
一句话总结:Hue是一个友好的界面集成框架,可以集成我们各种学习过的以及将要学习的框架,一个界面就可以做到查看以及执行所有的框架。
类似的产品还有 Apache Zeppelin。
2、Hue编译安装
Hue官方网站:https://gethue.com/
HUE官方用户手册:https://docs.gethue.com/
官方安装文档:https://docs.gethue.com/administrator/installation/install/
HUE下载地址:https://docs.gethue.com/releases/
- Hue的安装并不是那么简单,官方并没有编译好的软件包,需要从github上下载源码、安装依赖、编译安装。以下详细讲解Hue下载、编译、安装的操作过程。
- 安装Hue的节点上最好没有安装过MySQL,否则可能有版本冲突,这里选择将Hue安装在 linux122 上。
- 下载软件包、上传、解压(hue-release-4.3.0.zip、apache-maven-3.6.3-bin.tar.gz)
- 安装依赖包
- 安装maven
- hue编译
- 修改hadoop配置
- 修改hue配置
- 启动hue服务
2.1、下载软件包
到官方网站下载 hue-release-4.3.0.zip;上传至服务器,并解压缩
yum install unzip
unzip hue-release-4.3.0.zip
2.2、安装依赖
# 需要Python支持(Python 2.7+ / Python 3.5+)
python --version# 在 CentOS 系统中安装编译 Hue 需要的依赖库
yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5-devel libffi-devel libxml2-devel libxslt-devel make mysql mysql-devel openldap-devel python-devel sqlite-devel gmp-develyum install -y rsync
备注:
- 以上依赖仅适用CentOS/RHEL 7.X,其他情况请参考https://docs.gethue.com/administrator/installation/dependencies/
- 安装Hue的节点上最好没有安装过MySQL,否则可能有版本冲突
- 安装过程中需要联网,网络不好会有各种奇怪的问题
2.3、安装Maven
编译 Hue 还需要 Maven 环境,因此在编译前需要安装 Maven。
下载 apache-maven-3.6.3-bin.tar.gz,上传虚拟机解压缩,添加环境变量
vi /etc/profile# 添加环境变量
export MAVEN_HOME=/opt/lagou/servers/apache-maven-3.6.3
export PATH=$PATH:$MAVEN_HOME/binsource /etc/profile# 验证安装
mvn --version
2.4、编译
# 进入 hue 源码目录,进行编译。 使用 PREFIX 指定安装 Hue 的路径
cd /opt/lagou/software/hue-release-4.3.0
PREFIX=/opt/lagou/servers make install
cd /opt/lagou/servers# 如果想把HUE从移动到另外一个地方,由于HUE使用了Python包的一些绝对路径,移动之后则必须执行以下命令:
# 这里不要执行
rm app.reg
rm -r build
make apps
备注:这一步持续的时间比较长,还会从网上下载 jar;需要联网
2.5、修改 Hadoop 配置文件
在 hdfs-site.xml 中增加配置
<!-- HUE -->
<property><name>dfs.webhdfs.enabled</name><value>true</value>
</property>
<property><name>dfs.permissions.enabled</name><value>false</value>
</property>
在 core-site.xml 中增加配置
<!-- HUE -->
<property><name>hadoop.proxyuser.hue.hosts</name><value>*</value>
</property>
<property><name>hadoop.proxyuser.hue.groups</name><value>*</value>
</property>
<property><name>hadoop.proxyuser.hdfs.hosts</name><value>*</value>
</property>
<property><name>hadoop.proxyuser.hdfs.groups</name><value>*</value>
</property>
增加 httpfs-site.xml 文件,加入配置
<configuration><!-- HUE --><property><name>httpfs.proxyuser.hue.hosts</name><value>*</value></property><property><name>httpfs.proxyuser.hue.groups</name><value>*</value></property>
</configuration>
备注:修改完HDFS相关配置后,需要把配置scp给集群中每台机器,重启hdfs服务。
scp 文件名 IP地址:$PWD
start-dfs.sh
2.6、Hue配置
# 进入 Hue 安装目录
cd /opt/lagou/servers/hue# 进入配置目录
cd desktop/conf# 复制一份HUE的配置文件,并修改复制的配置文件
cp pseudo-distributed.ini.tmpl pseudo-distributed.ini
vi pseudo-distributed.ini
(:set number : 显示行号,便于我们观看配置文件)
# [desktop]http_host=linux122http_port=8000is_hue_4=truetime_zone=Asia/Shanghaidev=trueserver_user=hueserver_group=huedefault_user=hue# 211行左右。禁用solr,规避报错
app_blacklist=search# [[database]]。Hue默认使用SQLite数据库记录相关元数据,替换为mysqlengine=mysqlhost=linux123port=3306user=hivepassword=12345678name=hue # 数据库名# 1003行左右,Hadoop配置文件的路径
hadoop_conf_dir=/opt/lagou/servers/hadoop-2.9.2/etc/hadoop
# 在mysql中创建数据库hue,用来存放元数据
mysql -uhive -p12345678
mysql> create database hue;
# 进入hue的bin目录
/opt/lagou/servers/hue/build/env/bin# 初始化数据,执行下面两个命令
./syncdb
./migrate# 这个时后去查询我们的数据库,发现已经生成了许多数据,这是hue创建的
2.7、启动 Hue 服务
# 增加 hue 用户和用户组
groupadd hue
useradd -g hue hue# 在hue安装路径下执行
进入此目录build/env/bin/执行下面命令
./supervisor
- 在浏览器中输入:linux122:8000,可以看见以下画面,说明安装成功。
- 第一次访问的时候,需要设置超级管理员用户和密码。记住它(hue/123456)。
3、Hue整合Hadoop、Hive
修改参数文件 /opt/lagou/servers/hue/desktop/conf/pseudo-distributed.ini
3.1、集成HDFS、YARN
# 211 行。 没有安装 Solr,禁用,否则一直报错
app_blacklist=search# [hadoop] -- [[hdfs_clusters]] -- [[[default]]]
# 注意端口号。下面语句只要一个
# fs_defaultfs=hdfs://linux121:8020
fs_defaultfs=hdfs://linux121:9000webhdfs_url=http://linux121:50070/webhdfs/v1# 211 行
hadoop_conf_dir=/opt/lagou/servers/hadoop-2.9.2/etc/hadoop# [hadoop] -- [[yarn_clusters]] -- [[[default]]]
resourcemanager_host=linux123
resourcemanager_port=8032
submit_to=True
resourcemanager_api_url=http://linux123:8088
proxy_api_url=http://linux123:8088
history_server_api_url=http://linux123:19888
3.2、集成Hive
集成Hive需要启动 Hiveserver2 服务,在linux123节点上启动 Hiveserver2
查询端口
lsof -i:10000
启动Hiveserver2
nohup hiveserver2 &
# [beeswax]
hive_server_host=linux123
hive_server_port=10000
hive_conf_dir=/opt/lagou/servers/hive-2.3.7/conf
3.3、集成MySQL
# [librdbms] -- [[databases]] -- [[[mysql]]];1639行
# 注意:1639行原文: ##[[mysql]] => [[mysql]];两个##要去掉!
[[[mysql]]]nice_name="My SQL DB"name=hueengine=mysqlhost=linux123port=3306user=hivepassword=12345678
备注:name是数据库名,即 database 的名称
3.4、重启Hue服务
# 停止服务
ctrl + c# 启动服务
./supervisor
4、特别提示
我这个hue环境的配置是基于我自己搭建的hive本地集群,其中hdfs、yarn、mysql、hive、Hiveserver2 我搭建在了不同的集群节点,在配置时要依据自己的实际情况来做出相应的改变。
我搭建的节点参见下方博文:
Apache Hadoop 完全分布式集群搭建_悠然予夏的博客-CSDN博客
Hive安装与配置_悠然予夏的博客-CSDN博客_第1关:hive的安装与配置
Hive元数据管理_悠然予夏的博客-CSDN博客
数据交互工具 -- HUE相关推荐
- 数据交互工具 HUE
第一部分 Hue概述 Hue(Hadoop User Experience)是一个开源的 Apache Hadoop UI 系统,最早是由Cloudera Desktop 演化而来,由 Clouder ...
- 大数据交互平台Hue的优势
本文系统地讲解了Hue作为大数据分析交互平台的优势!欢迎批评指正! Hue Web应用的架构 Hue 是一个Web应用,用来简化用户和Hadoop集群的交互.Hue技术架构,如下图所示,从总体上来讲, ...
- 大数据WEB工具Hue
1.Hue的安装 (1)解压hue的安装包. cdh]$ tar -zxf hue-3.7.0-cdh5.3.6-build.tar.gz -C /opt/app/ (2)编辑配置文件/opt/app ...
- 【Hue】大数据WEB工具Hue
1.Hue简介 Hue是一个开源的Apache hadoop UI系统,Hue的默认数据库是SQL Lite,是一个文件浏览器,支持文件的增删改查,Hue的压缩包下载之后,需要进行二次的编译才能使用. ...
- 数据交互 -- HUE
一.Hue概述 HUE(Hadoop User Experience)是一个开源的Apache Hadoop UI系统,最早由Cloudera Desktop演化而来,是基于Python Web框架实 ...
- 大数据——Impala工具使用
目录 一.Impala概述 二.Impala优点 三.Impala和Hive 3.1 Impala和Hive的关系 3.2 Impala和Hive的区别 五.Impala查询过程 六.Impala安装 ...
- 《OpenCV图像处理》——1.7 用户交互工具
本节书摘来自华章计算机<OpenCV图像处理>一书中的第1章,第1.7节,作者:[西]葛罗瑞亚·布埃诺·加西亚(Gloria Bueno García)著,更多章节内容可以访问云栖社区&q ...
- 大数据可视化html模板开源_5个最受工程师欢迎的大数据可视化工具
大数据可视化是进行各种大数据分析解决的最重要组成部分之一. 一旦原始数据流被以图像形式表示时,以此做决策就变得容易多了. 为了满足并超越客户的期望,大数据可视化工具应该具备这些特征: 能够处理不同种类 ...
- 干货 | 万字长文全面解析GraphQL,携程微服务背景下的前后端数据交互方案
作者简介 古映杰,携程研发高级经理,负责前端框架和基础设施的设计.研发与维护.开源项目react-lite和react-imvc作者. 前言 随着多终端.多平台.多业务形态.多技术选型等各方面的发展, ...
最新文章
- ipa在线安装搭建_前端技术不懂打包IPA?打包 iOS 的 IPA 文件教程奉上
- 49.SCVMM管理下的Hyper-V到Azure的异地(Azure)容灾
- 网站自己生成专题php,phpcms生成专题的同时自动生成专题相关文章
- IE6、 IE7、IE8、Firefox兼容性问题
- java开发需要掌握哪些东西_java开发需要掌握哪些技能
- 3G助推智慧医疗 看病将更加“智能化”
- LightOJ-1220 Mysterious Bacteria (素数打表+欧几里得算法+唯一分解定理)给出x,求x=a^p,最大的指数
- ios 怎么判断字符串的字节数_iOS 计算字符串长度-boundingRectWithSize:
- Zabbix 3.0入门到企业实战阅读目录
- MooseFS灾备演练实录
- Android平台Native开发与JNI机制详解
- 系统动力学Vensim的使用
- Python计算IV值
- cdn贝免费套餐_CDN贝网站seo
- 关于IE读取缓存页面不刷新解决方法
- 3. 乱石穿空,惊涛拍岸,卷起千堆雪。 2. 故垒西边,人道是,三国周郎赤壁。 4. 江山.... hai太乱了,我们来写程序排序输出到磁盘文件中
- Latex输入分段函数
- P5837 [USACO19DEC]Milk Pumping G
- 【Android Gradle 插件】Android 依赖管理 ⑥ ( 依赖冲突处理 | transitive 依赖传递设置 | exclude 依赖排除设置 | force 强制指定依赖库 )
- 系列超声发现脊柱关节炎附着点处新骨形成
热门文章
- geant4构造粒子_Geant4基础知识
- java for循环map赋值_Java for循环Map集合优化实现解析
- 24 场论(上): 梯度场、 通量、 散度场
- 转让天津现成测绘资质
- 【阿里 | 飞猪 | 校招】客户端开发工程师 一面
- python 无法定位程序输入点ucrtbase_win7无法定位程序输入点ucrtbase.abort于动态链接库的解决办法...
- 接口调试工具 Postman 使用详解
- JAVA文件上传详解(附源码)
- 0 pandas概述--1文件读取与写入--2 基本操作
- poj3074,3076 数独!(DLX)