这里写目录标题

虚拟机配置
- jdk配置
- - 一：每台机器安装&配置JDK
- hadoop配置
- - 内部文件配置
- 安装mysql
- 安装hive
- 安装flume
- 爬取前程无忧的数据
- - 用scrapy爬取了2w条数据存入MongoDB
  - 数据导出指令
  - 导出的数据
  - 在hive上创建caiji表，并将hdfs数据导入hive表中
  - 查看导入hive的数据：
  - 对其上表进行分析
  - 三个数据的最高工资、最低工资、和平均工资
  - 创建三个表,来看个给地区的岗位数
  - 各个地方岗位数量
  - 创建几年工资经验表(sannianggongzi)
  - 把数据重dashujujingyan插入到sannianggongzi表
  - 查看三年大数据的工资：
- 数据可视化
- - 数据分析饼图岗位地区个数
  - 折线图

虚拟机配置

jdk配置

（完全分布式）
操作系统：CentOS7

机器：虚拟机3台，（master 192.168.6.128, slave1 192.168.6.129, slave2 192.168.6.130）JDK：1.8（jdk-8u111-linux-x64.rpm）Hadoop：hadoop-2.9.2.tar.gz

一：每台机器安装&配置JDK

创建目录 mkdir /usr/java
上传jdk安装包到 /usr/java/
解压 tar -xvf jdk-8u162-linux-x64.tar
追加环境变量 vi /etc/profile

#java
export JAVA_HOME=/usr/java/jdk1.8.0_111
export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin

使环境变量生效 source /etc/profile
检测jdk正确安装 java -version

[root@master bin]# java -version
java version "1.8.0_111"
Java(TM) SE Runtime Environment (build 1.8.0_111-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.111-b14, mixed mode)

1.2 修改每台机器主机名(hostname)

hostnamectl set-hostname master
hostnamectl set-hostname slave1
hostnamectl set-hostname slave2

1.3 修改每台机器/etc/hosts文件

scp 文件名远程主机用户名@远程主机名或ip:存放路径
scp /etc/hosts root@192.168.6.129:/etc/
scp /etc/hosts root@192.168.6.130:/etc/

拷贝完到其他子机上以后，可以尝试一下互ping

1.4 配置ssh，实现无密码登录
无密码登录，效果也就是在master上，通过ssh slave1或者ssh slave2就可以登录对方机器，而不用输入密码。
1）每台机器执行ssh-keygen -t rsa，接下来一路回车即可

此时我们的公钥、私钥会保存在：

2）在master上将公钥放到authorized_keys里，命令：cat id_rsa.pub > authorized_keys
3）将master上的authorized_keys放到其它机器上

scp authorized_keys root@slave1:~/.ssh/
scp authorized_keys root@slave2:~/.ssh/

4）我们尝试下直接连接其他子机

hadoop配置

1.5 上传&配置hadoop
1）创建目录 mkdir /usr/hadoop

2）上传hadoop安装包hadoop-2.9.2.tar.gz到 /usr/hadoop/

3）解压 tar -xvf hadoop-2.9.2.tar.gz

4）追加环境变量 vi /etc/profile

#hadoop
export HADOOP_HOME=/usr/hadoop/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

5）使环境变量生效 source /etc/profile
（并确定环境是否ok）

7）创建HDFS存储目录

cd /usr/hadoop

mkdir hdfs

cd hdfs

mkdir name data tmp

/usr/hadoop/hdfs/name --存储namenode文件

/usr/hadoop/hdfs/data --存储数据

/usr/hadoop/hdfs/tmp --存储临时文件

内部文件配置

8）切换到/usr/hadoop/hadoop-2.9.0/etc/hadoop 路径下
打开hadoop-env.sh配置文件，设置JAVA_HOME为实际路径

修改/usr/hadoop/hadoop-2.9.0/etc/hadoop/yarn-env.sh文件，设置JAVA_HOME为实际路径

配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/core-site.xml

配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/hdfs-site.xml

配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/mapred-site.xml

cp mapred-site.xml.template mapred-site.xml

配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/yarn-site.xml

配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/slaves文件，将里面的localhost删除，配置后内容如下：

9）copy整个/usr/hadoop/目录到其它机器

scp -r /usr/hadoop root@slave1:/usr/

scp -r /usr/hadoop root@slave2:/usr/

1.6 启动hadoop
先格式化：hadoop namenode -format

再启动：start-all.sh

我这里之前已经配置过了，所以直接启动了，如果第一次启动的话，有几个地方需要yes，按照提示输入就可以了。

master上执行jps

10）关闭防火墙
systemctl stop firewalld.service

11）成功登陆

安装mysql

转载
链接: https://bigdataboy.cn/post-100.html.
不是本人原创，参考他人安装步骤

安装hive

1 ）创建目录 mkdir /usr/hive

2）上传jdk安装包到 /usr/hive/

3）解压 tar -zxvf hive.gz

4）追加环境变量 vi /etc/profile

打开/usr/hive/apache-hive-2.3.6-bin/conf/hive-site.xml文件进行配置

5）需要在lib目录下，添加一个包：mysql-connector-java-5.1.48.jar
6）初始化hive数据库（在hive的bin目录下）
schematool -dbType mysql -initSchema

7）最后启动hive

安装flume

1 ）创建目录 mkdir /usr/flume

2）上传jdk安装包到 /usr/flume/

3）解压 tar -xzvf apache-flume-1.6.0-bin.tar.gz

4）追加环境变量 vi /etc/profile

5）添加/usr/flume/apache-flume-1.6.0-bin/conf/flume-conf.properties配置文件

6）启动flume
flume-ng agent -f /usr/flume/apache-flume-1.6.0-bin/conf/flume-conf.properties -n a1

爬取前程无忧的数据

用scrapy爬取了2w条数据存入MongoDB

数据导出指令

 mongoexport -d dbname(你的数据库名) -c user(要导出的表) -f locations(要导出的字段) --type=csv -o D:\我导入的是当前目录(你要导入的目录).

导出的数据

将导出数据，上传至hdfs：

在hive上创建caiji表，并将hdfs数据导入hive表中

查看导入hive的数据：

对其上表进行分析

分析"数据分析"，“大数据开发工程师”,"数据采集"等岗位的平均工资、最高工资、最低工资,做条形图展示

最低工资：

三个数据的最高工资、最低工资、和平均工资

创建三个表,来看个给地区的岗位数

各个地方岗位数量

工资计算：

创建几年工资经验表(sannianggongzi)

把数据重dashujujingyan插入到sannianggongzi表

查看三年大数据的工资：

数据可视化

import pymysql
from pyecharts.charts import Bar
from pyecharts import options as optsdb = pymysql.connect(host="192.168.127.9",port=3306,database="qianc",user='root',password='12345678')
cursor = db.cursor()
sql = "select * from shujusannianmoney"
cursor.execute(sql)
data = cursor.fetchall()
print(data)
jobname = [data[0][0], data[1][0], data[2][0]]
print(jobname)
min_list = [data[0][2], data[1][2], data[2][2]]
max_list = [data[0][3], data[1][3], data[2][3]]
average_list = [data[0][1], data[1][1], data[2][1]]
bar = Bar()
bar.add_xaxis(xaxis_data=jobname)
# 第一个参数是图例名称，第二个参数是y轴数据
bar.add_yaxis(series_name="最低工资", y_axis=min_list)
bar.add_yaxis(series_name="最高工资", y_axis=max_list)
bar.add_yaxis(series_name="平均工资", y_axis=average_list)
# 设置表的名称
bar.set_global_opts(title_opts=opts.TitleOpts(title='职位工资分析', subtitle='工资单位：万/月'), toolbox_opts=opts.ToolboxOpts(),)
bar.render("岗位薪资图.html")

数据分析饼图岗位地区个数

折线图

import pymysql
from pyecharts.charts import Line
from pyecharts import options as optsdb = pymysql.connect(host="192.168.127.9",port=3306,database="qianc",user='root',password='12345678')
cursor = db.cursor()
sql = "select * from dashujuriqi"
cursor.execute(sql)
data = cursor.fetchall()
riqi = []
geshu = []
for i in data:riqi.append(str(i[0]))geshu.append(str(i[1]))
print(geshu)
print(riqi)
data_pair = [list(z) for z in zip(riqi, geshu)]
data_pair.sort(key=lambda x: x[1])(Line(init_opts=opts.InitOpts(width="1000px", height="600px")).set_global_opts(tooltip_opts=opts.TooltipOpts(is_show=False),xaxis_opts=opts.AxisOpts(type_="category"),yaxis_opts=opts.AxisOpts(type_="value",axistick_opts=opts.AxisTickOpts(is_show=True),splitline_opts=opts.SplitLineOpts(is_show=True),),).add_xaxis(xaxis_data=riqi).add_yaxis(series_name="大数据岗位需求变化趋势",y_axis=geshu,symbol="emptyCircle",is_symbol_show=True,label_opts=opts.LabelOpts(is_show=False),).render("大数据岗位需求变化趋势.html")
)

虚拟机大数据实训项目相关推荐

大数据实训基地建设方案分享
大数据实训室建设方案中高职及本科在大数据专业建设所遇到的困难大数据.信息安全.人工智能等新信息技术产业发展迅猛,人才极其匮乏,各个本科及职业院校纷纷开设相应的专业方向.但是,绝大多数院校因为师资和 ...
大数据实训报告_教学大数据实训平台解决方案_德拓信息_上海市徐汇区
大数据实训方案简介德拓开发出多套专业的教学体系,为大数据.云计算.AI等专业的师生提供全套完整的教学实训实战方案.DSight智慧实验室包括教学实训.项目实战.科研应用三大模块,同时还提供对应的课 ...
湖北高校实用的大数据平台，专业的高校大数据实训平台解决方案，波若高校实训平台...
大数据工程教学实训平台又称大数据挖掘实战中心,将云存储资源.服务器资源和网络资源整合,然后通过Vmware等虚拟化搭建私有云平台,在私有云平台上搭建统一的数据挖掘平台和基于Hadoop的大数据分析平台 ...
搭建高校AI大数据实训室，2019高校大数据科研教学整体解决方案，数道云
伴随着互联网技术的迅猛发展,正在逐步改变传统的高校教育模式,以大数据.云计算.AI等等技术为核心的教育模式正在逐步发展. 高校实行AI大数据实训室有何实质性的效果呢? 大数据的出现催生出产业人才缺口瓶 ...
大数据实训室课程体系设计案例分享
大数据课程体系大数据实训课程体系设计依据一.培养目标:大数据技术与应用专业主要培养大数据应用与工程技术领域的复合型高级技术人才.毕业生具有信息科学和数据科学基础知识与基本技能,掌握大数据技术所需要 ...
大数据实训室助力国家高校人才梯队建设
5天,60小时,不间断的持续学习,是什么内容使得已经工作多年的教师还能如此热情高涨的学习?答案就是:新华三大数据教师培训. 2016年11月21~25日,新华三集团在杭州总部举办"2016新 ...
【数据清洗预处理——四】使用大数据实训云
数据清洗与预处理--四大数据实训云 1.登录实训云 2 .进入实训云创建网络查看网络拓扑创建路由查看网络拓扑连接网络创建端口添加安全组创建实例 1.实例规划 2.开始创建测试连通性 ...
高校什么场景下需要用到大数据实训平台？
在数字经济时代,大数据已经成为促进业务增长的生产要素,企业对于从业人员的要求更加贴近实战应用.高校使用大数据实训平台,一方面帮助教师打造一个出色的教学环境,一方面激励学生们探索与学习,真正结合产业发展 ...
大数据实训笔记4：mapreduce
目录核心思想 Mapper Reducer Driver 数据类型简单案例wordcount maven工程搭建代码实现在集群中测试序列化序列化和反序列化自定义序列化案例1:计算案例 ...

虚拟机大数据实训项目

这里写目录标题

虚拟机配置

jdk配置

一：每台机器安装&配置JDK

hadoop配置

内部文件配置

安装mysql

安装hive

安装flume

爬取前程无忧的数据

用scrapy爬取了2w条数据存入MongoDB

数据导出指令

导出的数据

在hive上创建caiji表，并将hdfs数据导入hive表中

查看导入hive的数据：

对其上表进行分析

三个数据的最高工资、最低工资、和平均工资

创建三个表,来看个给地区的岗位数

各个地方岗位数量

创建几年工资经验表(sannianggongzi)

把数据重dashujujingyan插入到sannianggongzi表

查看三年大数据的工资：

数据可视化

数据分析饼图岗位地区个数

折线图

虚拟机大数据实训项目相关推荐

最新文章

热门文章

虚拟机大数据实训项目

这里写目录标题

虚拟机配置

jdk配置

一： 每台机器安装&配置JDK

hadoop配置

内部文件配置

安装mysql

安装hive

安装flume

爬取前程无忧的数据

用scrapy爬取了2w条数据存入MongoDB

数据导出指令

导出的数据

在hive上创建caiji表，并将hdfs数据导入hive表中

查看导入hive的数据：

对其上表进行分析

三个数据的最高工资、最低工资、和平均工资

创建三个表,来看个给地区的岗位数

各个地方岗位数量

创建几年工资经验表(sannianggongzi)

把数据重dashujujingyan插入到sannianggongzi表

查看三年大数据的工资：

数据可视化

数据分析饼图岗位地区个数

折线图

虚拟机大数据实训项目相关推荐

最新文章

热门文章

一：每台机器安装&配置JDK