下载镜像

docker pull cloudera/quickstart
// 或者在 cloudera 官网下载文件后使用 `docker import` 命令导入
// https://downloads.cloudera.com/demo_vm/docker/cloudera-quickstart-vm-5.13.0-0-beta-docker.tar.gz

添加 hosts
quickstart.cloudera 指向宿主机的 IP

vim /etc/hosts
xx.xx.xx.xx quickstart.cloudera

启动服务(宿主机要求 8G 内存)

docker run -d --name cdh  --hostname=quickstart.cloudera --privileged=true -p 8020:8020 -p 8022:8022 -p 7180:7180 -p 21050:21050 -p 50070:50070 -p 50075:50075 -p 50010:50010 -p 50020:50020 -p 8890:8890 -p 60010:60010 -p 10002:10002 -p 25010:25010 -p 25020:25020 -p 18088:18088 -p 8088:8088 -p 19888:19888 -p 7187:7187 -p 11000:11000 -p 8888:8888 -p 2181:2181 -p 10000:10000 cloudera/quickstart /bin/bash -c '/usr/bin/docker-quickstart && /home/cloudera/cloudera-manager --express --force && service ntpd start && tail -F /var/log/*.log'

等待几分钟后,打开
http://quickstart.cloudera:7180
用户名密码均为 cloudera

在网页上启动 HFDS Hive Yarn zookeeper Hue 这些服务

等待全部启动完成后,打开
http://quickstart.cloudera:8888
用户名密码均为 cloudera

在这里就可以方便的查看 hdfs 文件以及通过 hive 查询数据了
HDFS UI: http://quickstart.cloudera:8888/filebrowser/
Hive UI: http://quickstart.cloudera:8888/beeswax/


使用 python 读写 hdfs 示例

编辑待上传的示例文件:
data1.csv

user_id,name,sex,age
10001,张三,1,20
10002,李四,0,18
10003,王五,1,27
10004,赵六,1,33

data2.csv

user_id,fans_id,time
10001,10002,2019-10-01
10001,10003,2019-11-03
10002,10003,2019-10-22
10002,10004,2019-11-02
10003,10001,2019-09-13
10004,10001,2019-09-08
10004,10002,2019-10-08
10004,10003,2019-11-15

安装 hdfs 模块

pip install hdfs

python 脚本

import hdfsclient = hdfs.InsecureClient('http://quickstart.cloudera:50070', user='cloudera')# 浏览目录
print(client.list('/'))# 创建目录
client.makedirs('/user/cloudera/users')
client.makedirs('/user/cloudera/fans')# 上传文件
client.upload('/user/cloudera/users/data.csv', './data1.csv', overwrite=True)
client.upload('/user/cloudera/fans/data.csv', './data2.csv', overwrite=True)
print('upload success!')# 读取 hdfs 文件内容
with client.read('/user/cloudera/users/data.csv') as r:print(r.read())

Hive 操作示例

打开页面 http://quickstart.cloudera:8888/beeswax/

输入脚本创建外部表

create external table users
(user_id int, name string, sex int, age int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
location '/user/cloudera/users'
tblproperties("skip.header.line.count"="1");create external table fans
(user_id int, fans_id int, time string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
location '/user/cloudera/fans'
tblproperties("skip.header.line.count"="1");

点击 执行 按钮,完成表创建

再输入查询脚本

SELECT name, count(*) AS fans_count
FROM users
LEFT JOIN fansON fans.user_id = users.user_id
GROUP BY  name;

点击 执行 按钮,等待一段时间后查看到统计结果


使用 python 进行 hive 查询

安装 PyHive模块

apt-get install libsasl2-dev -y
pip install sasl
pip install thrift
pip install thrift-sasl
pip install PyHive

python 脚本

from pyhive import hive
conn = hive.Connection(host='quickstart.cloudera', port=10000, username='cloudera', database='default')
cursor = conn.cursor()cursor.execute('select * from users;')
print(cursor.fetchall())cursor.execute('select count(*) from users;')
print(cursor.fetchone())cursor.close()
conn.close()

作者:taojy123
链接:https://www.jianshu.com/p/5ecf73668b4d
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

通过Docker 安装 cloudera manager 平台相关推荐

  1. VMware Fusion安装cloudera manager

    题记:最近使用 VirtualBox 安装CDH,通过host-only + NAT 形式配置网络时,配置起来数次失败.遂选用VMware Fusion 重新尝试. 使用素材 硬件 环境配置 Mast ...

  2. 二进制安装mysql集群_基于二进制安装Cloudera Manager集群

    一.环境准备 参考链接:https://www.cnblogs.com/zhangzhide/p/11108472.html 二.安装jdk(三台主机都要做) 下载jdk安装包并解压:tar xvf ...

  3. 搭建本地Yum软件源安装Cloudera Manager 5

    记录操作过程,不过多介绍相关知识以及原理,有问题自行百度或留言讨论. 一.搭建web服务服务器 有两台虚拟机,elephant用于安装cdh-server相关作为管理者,monkey用于安装cdh-a ...

  4. 安装Cloudera manager Server步骤详解

    安装Cloudera manager Server步骤详解 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客主要是针对:https://www.cnblogs.com/yin ...

  5. 安装 Cloudera Manager、CDH、KUDU 随手记

    转自:https://my.oschina.net/balajinima/blog/862969 一.关于CDH和Cloudera Manager CDH (Cloudera's Distributi ...

  6. Centos7 安装包方式(离线)安装cloudera manager 和 CDH

    Centos7 环境下安装CDH 首先要安装cloudera manager 然后通过cm的图形界面来安装CDH 和一些相关组件 需要安装mysql来存储cloudera manager的一些数据 也 ...

  7. centos7安装Cloudera Manager

    第一部分:准备工作 一,修改hostname $vim /etc/sysconfig/network $source /etc/sysconfig/network 例如: NETWORKING=yes ...

  8. 离线安装Cloudera Manager 5和CDH5(最新版5.9.3) 完全教程(七)界面安装

    一.安装过程 1.1 登录 1.2 接受许可协议 1.3 选择免费版本 1.4 选择下一步 1.5 选择当前管理的主机 1.6 选择使用Parcel安装,选择CDH版本,点击继续 1.7 等待安装 此 ...

  9. [CDH安装]--CDH5和Cloudera Manager 5要求和支持的版本

    原文: https://www.cloudera.com/documentation/enterprise/release-notes/topics/rn_consolidated_pcm.html# ...

最新文章

  1. Anchor Boxes示例实战
  2. node - 非阻塞的异步 IO
  3. 虚函数表 vtable
  4. 中标麒麟linux系统忘记root密码,中标麒麟(龙芯CPU)--忘记root密码怎么修改?
  5. 都在说TDD开发,那到底TDD是什么?
  6. 子节点随父节点高度改变_完全二叉树的子节点数
  7. java 多态性 接口_Java中的多态性和接口
  8. c语言怎么输入3个数输出最大值
  9. 信息学奥赛一本通(1330:【例8.3】最少步数)
  10. ps图层组快捷键 一次打开或关闭所有的顶级图层组
  11. 基础级拆机-神舟战神GX8CP5s1上8700发现较为鸡肋-仿CP7s2
  12. 央行数字货币——DCEP的那些事儿
  13. vue 二级三级路由配置
  14. Excel怎么快速完成多条件查询
  15. excel迷你图 vba_如何在Excel 2010中使用迷你图
  16. Python金融系列第七篇:市场风险
  17. IE浏览器日期转换问题
  18. 西南交大计算机应用基础 第2次作业 主观题目,西南交大网络教育2011-2012学年计算机应用基础第四次作业(主观题)...
  19. 线下活动 | 聚焦分布式高可用的消息队列
  20. 对SingleTask和TaskAffinity的理解

热门文章

  1. Cycle3-Group1
  2. 如何利用pupStudy自带环境,使用wordpress建立自己的网站?
  3. XP电脑桌面图标文字带上颜色不透明 解决办法
  4. Javascript 入门级 编写简单的音乐播放器
  5. “知识共享”与智能数学老师
  6. win10系统steam连接不上服务器,win10系统steam无法连接到更新服务器的解决方法
  7. 大数据学习之 ElasticSearch 练习
  8. CSDN博客索引-2
  9. [附源码]SSM计算机毕业设计高校奖学金评定管理系统JAVA
  10. 语音端点检测 php,几种语音端点检测方法简介