基于Hive的搜狗搜索日志与结果Python可视化设计
目录
一、实验描述 2
二、实验目的 2
三、实验环境 2
四、实验步骤 2
4.1 元数据库 Mysql 安装 2
2) 安装 mysql 所需依赖: 3
3) 解压 mysql 安装包: 3
4) 进入 aarch64 目录,对 rpm 包进行安装: 4
- 命令 4
- 查看启动状态 4
- 登录 mysql(密码为上图红框标注部分) 4
- 修改 mysql 密码为:MyNewPass4! 4
- 查看 msyql 密码策略的相关信息: 4
- 重新启动 mysql 服务 6
- 登录 mysql: 6
- 查看编码 6
4.2 Hive 安装部署 7
步骤 1:启动 Hadoop 集群 7 - 在 master 启动 Hadoop 集群: 7
- 解压并安装Hive 7
- 登录 mysql 7
- 创建hadoop 用户(密码:hadoop): 7
- 创建数据库连接 8
- 进入hive 安装目录下的配置目录: 8
- 创建hive 配置文件: 8
- 添加如下内容: 8
- 打开配置文件: 9
- 将下面两行配置添加到环境变量中: 9
- 使环境变量生效 9
- 初始化Hive 元数据库 9
- 启动 hive 客户端 9
4.3 Hive SQL 数据分析 10 - 查看数据内容 10
- 查看总行数 10
- 将时间字段拆分,添加年、月、日、小时字段 11
- 查看拓展后的字段 11
- 重命名数据文件 11
- 上传数据 11
- 进入hive 客户端命令行: 12
- 使用数据库: 12
- 查询分区表的结果: 14
- 计总条数 15
4.4 数据可视化 19
4.4.1 基于 Python 的数据可视化步骤 1:安装 Anaconda 19 - 使用 pip 安装 sasl(python 远程连接 hive)(若 pip 安装失败,可使用 conda install 23
4.4.2 基于华为云 DLV 的数据可视化步骤 1:开启 DLV 数据可视化平台 24
五、实验结果与分析 28
一、实验描述
利用 hive 命令行完成搜狗日志各项数据分析,使用 Python 进行数据可视化。主要步骤包括:安装部署 Hive、启动 Hadoop 集群、进入 Hive 命令行、创建数据库和数据表、加载或导入数据、用Hive SQL 完成需求、使用 Python 实现数据可视化。
二、实验目的
1.掌握安装Hive 的方法;
2.掌握Hive 创建数据库、导入数据的方法;
3.学会使用Hive SQL 分析数据;
4.学会数据可视化的方法。
三、实验环境
1.虚拟机数量:3;
2.系统版本:Centos 7.5;
3.Hadoop 版本:Apache Hadoop 2.7.3;
4.MySQL 版本:MySQL 5.7.30;
5.Hive 版本:Apache Hive 2.1.1。
四、实验步骤
实验开始前,请确保 Hadoop 集群已经安装成功(可参考实验三Hadoop 集群安装部署部分)。本文转载自http://www.biyezuopin.vip/onews.asp?id=14908接下来的步骤主要是:元数据库 Mysql 安装、Hive 安装部署、Hive SQL 数据分析、数据可视化。
4.1元数据库 Mysql 安装
本实验安装 MySQL 是为了给 Hive 提供元数据存储库,主要包括:yum 安装 MySQL、修改 MySQL root 密码、添加 zkpk 用户并赋予远程访问权限、修改数据库默认编码。
from matplotlib import lines
from pyhive import hive
import matplotlib.pyplot as plt
from matplotlib.pyplot import MultipleLocator
plt.rcParams['font.sans-serif'] = ['SimHei'] # 步骤一(替换 sans-serif 字体)
plt.rcParams['axes.unicode_minus'] = False # 步骤二(解决坐标轴负数的负号显示问题)
conn = hive.Connection(host='119.3.212.133',port=10000,auth='NOSASL',username='root')
cursor = conn.cursor()
cursor.execute('select rank,count(*) as cnt from sogou_100w.sogou_ext_20111230 group by rank order by rank limit 30')
rank = []
clicks = []
for result in cursor.fetchall():rank.append(result[0])clicks.append(result[1])
cursor.close()
conn.close()
plt.plot(rank,clicks,marker='D')
plt.title('rank与点击次数折线图-2018211582')
plt.xlabel("rank")
plt.ylabel("点击次数")
plt.legend(['rank-点击次数'],loc=3)
x_major_locator=MultipleLocator(1)
#把x轴的刻度间隔设置为1,并存在变量里
ax=plt.gca()
ax.xaxis.set_major_locator(x_major_locator)
for i,j in zip(rank,clicks):plt.text(i,j+2,"%d"%j,horizontalalignment='center')
plt.show()
基于Hive的搜狗搜索日志与结果Python可视化设计相关推荐
- 搜狗搜索日志分析系统
实验手册--搜狗搜索日志分析系统 转载:https://www.cnblogs.com/biehongli/p/8074642.html 前奏:请提前搭建好你的集群和必要的软件:hadoop + jd ...
- 六十五、Spark-综合案例(搜狗搜索日志分析)
搜狗实验室:搜索引擎查询日志库设计为包括约1个月(2008年6月)Sogou搜索引擎部分网页查询需求及用户点击情况的网页查询日志数据集合.为进行中文搜索引擎用户行为分析的研究者提供基准研究语料 目录 ...
- 实验手册——搜狗搜索日志分析系统
前奏:请提前搭建好你的集群和必要的软件:hadoop + jdk + hive + Sqoop + HBase: 数据(链接是网友的,感谢,感谢,感谢.里面有测试数据):链接:http://pan.b ...
- 大数据综合案例--搜狗搜索日志分析
文档连接: https://pan.baidu.com/s/1Eq85aWfSUXTCqk5EKo8zPQ 数据链接: https://pan.baidu.com/s/1Y7qQPjBaAvLnnCQ ...
- Spark综合学习笔记(三)搜狗搜索日志分析
学习致谢: https://www.bilibili.com/video/BV1Xz4y1m7cv?p=36 一. 数据 数据网站: http: //www.sogou.com/labs/resour ...
- 搜狗搜索日志分析系统500w数据(实现数据分析需求一至五)
四.实现数据分析需求一:条数统计 数据总条数: hive> select count(*) from sogou.sogou_ext_20111230; 非空查询条数 hive> sele ...
- Hive基于搜狗搜索的用户日志行为分析
问题导读 1.本文是如何学习大数据的? 2.用户查询中包含的中文.英文字数的平均个数,本文提出哪两个思路? 3.用户访问应用的时间特点如何使用hive实现统计的? 前言 "大数据时代&quo ...
- 搜狗搜索:与网站权重相关的8个知识点
猫宁!!! 参考链接:http://help.sogou.com/guide.html?v=1 虽然是与搜狗搜索相关的,但是在搜索引擎间可是通用的,而且总结的比较到位与全面. 第一.网站设计指南 每个 ...
- 深度学习新技术在搜狗搜索广告中的深化应用
大家好,我是来自搜狗搜索广告应用策略研究组的舒鹏,目前主要负责搜索广告算法研究工作,今天的题目是深度学习新技术在搜狗搜索广告中的深化应用.深度学习技术已经出现很多年,它在各个场景中都有应用,本次演讲的 ...
最新文章
- java发送简单邮件_Java程序实现发送简单文本邮件
- 蒸发器分段设计matlab程序_制冷系统蒸发器过热度控制回路的MATLAB仿真_何煜
- display:flex弹性布局
- java面向对象使用字符串_java面向对象中的String类中12种常用的方法
- 网络安全之SQL注入
- 牛客网多校联合训练1 J 	Different Integers(可持久化线段树/莫队)
- css属性~(积少成多)
- 【LeetCode】【字符串】题号:*541. 反转字符串 II
- 将公共云延伸至本地,阿里云推出本地化部署服务云盒Cloud Box
- Android平台语音交友软件源码开发,语音通话的实现
- Photoshop脚本 合并链接图层
- 当前读和快照读的区别
- 给上层添加SuperSu来获取root权限
- 新建银行账户类,实现基本的属性和方法。
- Unhandled Exception:System.DllNotFoundException: Unable to load DLLquot;**quot;:找不到指定的模块
- [附源码]java毕业设计哈金院快递驿站管理信息系统
- 高新技术企业补贴政策能通过吗?高新企业补贴什么时候发放
- arm-linux-gcc电子相册,基于TQ2440的电子相册项目实现
- ArcGIS中将一个shp图层批量分割成单个的shp;shp批量转geojson
- 【酷站】中国互联网Web2.0 Top 100