5分钟搭建大数据学习环境

想学大数据，先搭个环境再说，要准备多少台服务器，每台服务器的基础环境设置，各个服务器的网络互联，真是很麻烦的一件事

第一座山先把想入门的学习者挡在门外，别放弃，这里又一个即全面又快捷的搭建大数据环境的方法，排除下载软件的时间，只需要5分钟，就可以拥有一个自己的大数据环境，包括绝大部分大数据生态环境的各个组建，完美得不能再完美。

只需按照以下步骤进行：

一、下载并安装oracle的虚拟机软件VirtualBox

下载地址为 https://www.virtualbox.org/，有windows版和mac版

下载后直接安装软件即可

二、下载CDH的quick starts的VirtualBox虚拟机文件

CDH是Cloudera的软件发行版，包含Apache Hadoop及相关项目。所有组件都是100％开源。

我们要下载的虚拟机文件，是运行在VirtualBox里的linux虚拟机，这个linux虚拟机里，已经完整安装了大数据绝大部分必须的组建，包括Hadoop、Hive、Hbase、Spark、Hue以及Mysql等等，这些组件之间的关系，大家在学习大数据的过程中，会一步步的理解。

下载地址是：https://www.cloudera.com/downloads/quickstart_vms/5-13.html

1-1

页面上的下拉框请选择Virtual Box，当然也可选择其他的方案，比如Docker iamge或者VMWare，本人在安装过程中，用Docker启动一些组件报错，而Virtual Box的虚拟机环境则很健壮，没有任何问题，因此，推荐使用Virtual Box。

下载的文件大小为5.8G左右的zip文件，下载成功后，还需要解压这个文件，这是一个比较漫长的过程，当然不能算进5分钟之内了。

三、解压后的文件如图1-2，在已经安装好Virtual Box的前提下，直接双击.ovf文件，即可打开Virtual Box的导入虚拟机对话框如图1-3。

在导入虚拟机对话框上，可以双击各个项目进行调整，如果你的机器是酷睿i9，18个物理内核，36个超线程，那么处理器那一项设置成24或者32都没问题，内存也是一样，根据自己电脑的实际内存大小进行设置，如果此电脑除了运行这个虚拟机意外，不作他用，那么设置称电脑实际内存的三分之二是没有问题的。

网络控制器和硬盘控制器使用给定的设置即可，导入虚拟机成功后，还可以修改。

点击“导入”按钮，则显示图1-4，进行虚拟机的导入。

导入虚拟机成功后，选择导入的虚拟机，点击上面工具栏的设置按钮，可以继续设置虚拟机环境，如图1-5所示

在点击设置按钮后，会弹出设置的对话框，我们主要对网络进行一下设置，因为这涉及到我们能不能连接到虚拟机的问题。如题1-6，选择桥接网卡，下面“界面名称”那一项，如果是wifi上网的话，选择本机使用的无线网卡，如果使用的是网线，则选择在用的物理网卡。

虚拟机基本设置完毕，点击Virtual Box的启动按钮（绿色大箭头），则开始启动虚拟机。

1-2

1-3

1-4

1-5

1-6

启动后的虚拟机如图1-7，记住桌面背景的 cloudera ，虚拟机中各个大数据组件的用户名和密码都是cloudera，包括虚拟机linux系统的用户名和密码

1-7

在桌面左上角选择“Applications” -> “System Tools” -> “Terminal”，进入控制台，输入ifconfig命令，显示虚拟机的IP地址，如图1-8，我们之前已经设置好了虚拟机使用桥接网络，所以在宿主机，或者与宿主机在同一网络的其他电脑，都可以连接到虚拟机

1-8

如图1-9至1-11，可以直接访问虚拟机内各个组件的web控制台：

80 cloudera端口：

1-9

8088 hadoop端口：

1-10

8888 hue端口：

1-11

现在，我们就可以根据官方教程，一步一步学习大数据了，官方教程如下：

https://www.cloudera.com/developers/get-started-with-hadoop-tutorial.html

官方教程的“Exercise 1: Ingest and query relational data”这部分内容，是让我们把mysql中的关系型数据导入到hive仓库中，使用的命令是：

sqoop import-all-tables \

-m {{cluster_data.worker_node_hostname.length}} \

--connect jdbc:mysql://{{cluster_data.manager_node_hostname}}:3306/retail_db \

--username=retail_dba \

--password=cloudera \

--compression-codec=snappy \

--as-parquetfile \

--warehouse-dir=/user/hive/warehouse \

--hive-import

执行这行命令会报错：Error: expected numeric argument.

我们只需将这行命令的 -m {{cluster_data.worker_node_hostname.length}} \删除，并且把命令行中的

--connect jdbc:mysql://{{cluster_data.manager_node_hostname}}:3306/retail_db \

改成

--connect jdbc:mysql://127.0.0.1:3306/retail_db \

使其连接到虚拟机本机的mysql数据库，就可以成功运行了

最终的命令行如下：

sqoop import-all-tables \

--connect jdbc:mysql://127.0.0.1:3306/retail_db \

--username=retail_dba \

--password=cloudera \

--compression-codec=snappy \

--as-parquetfile \

--warehouse-dir=/user/hive/warehouse \

--hive-import

命令运行成功，这样我们的大数据环境中，就有原始数据了，接下来，无论你学习使用hive、pig、spark......，在这个大数据环境中都可以顺利进行。

虚拟机环境确认正常后，Virtual Box提供快照功能，给虚拟机拍个快照，这样以后在学习过程中，发生环境崩溃时，直接使用快照恢复，一切OK！

敬请扫码关注盲点技术号，我们将持续努力与您一起学习探讨开发技术

5分钟搭建大数据学习环境相关推荐

使用Docker搭建大数据Hadoop环境
使用Docker搭建大数据Hadoop环境一.安装Docker 原文地址:https://www.imooc.com/article/48676.http://www.runoob.com/dock ...
搭建大数据运行环境之二
前言上篇文章咱们将大数据相关的一些组件都集成安装在了一个docker中搭建大数据运行环境之一这篇文章咱们继续启动下该docker中的大数据相关的组件将大数据运行环境跑起来上篇文章的几个注意 ...
在阿里云中搭建大数据实验环境
云计算是和自来水一样的商业模式.有了自来水,我们可以不用自己挖井,就可以快速.便捷.廉价地获得水资源.而有了云计算,我们就可以不用自己建机房.买设备.维护系统,就可以快速.便捷.廉价地获得IT资源(C ...
大数据学习环境搭建系列（二）虚拟机软件Vmware的安装
作者 | CDA数据分析师概述在进行分布式架构的学习前,首先需进行基础环境准备.众所周知,在单机运算能力无法满足处理海量数据的运算能力时,人们普遍开始考虑使用分布式运算来代替单机运算,这也成为了大 ...
在家搭建大数据分布式计算环境！
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货作者:牧小熊,华中农业大学,Datawhale原创作者 0. 前言分布 ...
搭建大数据运行环境之一
前言一键搭建 zookeeper/hadoop/hive/hbase/sqoop/kafka/spark/kylin 服务器资源本地Mac有3个虚拟机 server1 192.168.84.128 ...
大数据学习环境搭建系列（十二）Xshell的安装使用
作者 | CDA数据分析师尽管很不适应也很不情愿,但在实际工作情景当中,企业不会将有限物理硬件的基础上给工作人员提供图形化桌面操作界面(此举将极大的浪费计算资源),因此大多数情况我们针对分布式集群的 ...
搭建大数据开发环境-Hadoop篇
前期准备操作系统 hadoop目前对linux操作系统支持是最好的,可以部署2000个节点的服务器集群:在hadoop2.2以后,开始支持windows操作系统,但是兼容性没有linux好.因此,建 ...
mac搭建大数据开发环境
mac安装Hadoop/hbase/spark:https://blog.csdn.net/sunxiaoju/article/details/86183405 mac idea+sbt运行spark ...

5分钟搭建大数据学习环境

5分钟搭建大数据学习环境相关推荐

最新文章

热门文章