mysql 词频分析工具_hive进行词频统计
统计文件信息:
$ /opt/cdh-5.3.6/hadoop-2.5.0/bin/hdfs dfs -text /user/hadoop/wordcount/input/wc.input
hadoop spark
spark hadoop
oracle mysql postgresql
postgresql oracle mysql
mysql mongodb
hdfs yarn mapreduce
yarn hdfs
zookeeper
针对于以上文件使用hive做词频统计:
create table docs (line string);
load data inpath '/user/hadoop/wordcount/input/wc.input' into table docs;
create table word_counts as
select word,count(1) as count from
(select explode(split(line,' ')) as word from docs) word
group by word
order by word;
分段解释:
--使用split函数对表中行按空格进行分隔:
select split(line,' ') from docs;
["hadoop","spark",""]
["spark","hadoop"]
["oracle","mysql","postgresql"]
["postgresql","oracle","mysql"]
["mysql","mongodb"]
["hdfs","yarn","mapreduce"]
["yarn","hdfs"]
["zookeeper"]
--使用explode函数对split的结果集进行行拆列:
select explode(split(line,' ')) as word from docs;
word
hadoop
spark
spark
hadoop
oracle
mysql
postgresql
postgresql
oracle
mysql
mysql
mongodb
hdfs
yarn
mapreduce
yarn
hdfs
zookeeper
--以上输出内容已经满足对其做统计分析,这时通过sql对其进行分析:
select word,count(1) as count from
(select explode(split(line,' ')) as word from docs) word
group by word
order by word;
word count
1
hadoop 2
hdfs 2
mapreduce 1
mongodb 1
mysql 3
oracle 2
postgresql 2
spark 2
yarn 2
zookeeper 1
mysql 词频分析工具_hive进行词频统计相关推荐
- (3.13)mysql基础深入——mysql日志分析工具之mysqlsla【待完善】
(3.13)mysql基础深入--mysql 日志分析工具之mysqlsla 关键字:Mysql日志分析工具.mysqlsla 常用工具 [1]mysqldumpslow:官方提供的慢查询日志分析工具 ...
- 用javascript自制ctf词频分析工具
不废话,上代码: <!DOCTYPE html> <html> <head><title></title> </head> &l ...
- mysql 性能分析_十大MySQL性能分析工具汇总!专治MySQL性能瓶颈
前言 MySQL 数据库最常见的两个瓶颈是CPU和I/O的瓶颈.CPU在饱和的时候一般发生在数据装入内存或从磁盘上读取数据时候,磁盘I/O瓶颈发生在装入数据远大于内存容量的时候. MySQL数据库性能 ...
- MySQL性能分析工具的使用:慢查询日志、EXPLAN的使用、分析优化器执行计划:trace、MySQL监控分析视图-sys schema
文章目录 1.数据库服务器的优化步骤 2.查看系统性能参数 2.1 语法 2.2 常用参数 3.统计SQL的查询成本:last_query_cost 4.定位执行慢的SQL:慢查询日志 4.1 慢查询 ...
- mysql日志分析工具之mysqlsla
一.前言 当我们使用自己搭建的mysql的时候,如何排查慢日志呢?如何对慢日志进行分析呢? 下面介绍两款常用的慢日志分析工具: mysqldumpslow mysqlsla 二.mysqldumpsl ...
- mysql死锁分析工具show engine innodb status
参考文章 <记录一次MySQL死锁的分析与解决过程> <mysql之show engine innodb status解读> <把MySQL中的各种锁及其原理都画出来&g ...
- mysql 查询分析工具下载_SQL分析工具下载-SQL查询工具(DB Solo)下载v5.2.5官方版-西西软件下载...
DB Solo是一款完美的数据库查询分析工具.软件优秀跨平台SQL查询功能,支持所有主要DBMS产品:主要用于POJO的J2EE代码生成器,EJB 3.0批注,使用DAO 模式的JDBC持久层,JU ...
- mysql 索引分析工具_Mysql:性能分析以及Explain工具的使用
---恢复内容开始--- 1.介绍 Explain工具是用来分析sql语句性能的工具,他会显示出Mysql内部解析语句的状况 使用方法: explain+sql语句 例如 2.字段分析 一.ID字段 ...
- mysql性能分析工具profiling_Mysql系列(十)—— 性能分析工具profiling
explain是从mysql怎样解析执行sql的角度分析sql优劣.profiling是从sql执行时资源使用情况的角度来分析sql. 分析SQL执行带来的开销是优化SQL的重要手段.在MySQL数据 ...
- MySQL性能分析工具
第一节 统计SQL执行成本 统计SQL的查询成本: last_query_cost 一条SQL查询语句在执行前需要确定查询执行计划,如果存在多种执行计划的话,MySQL会计算每个执行计划所需要的成本, ...
最新文章
- Python中的map()函数
- 单片机涡轮流量传感器_暖通慧教你一文读懂流量传感器
- 交通运输部部长李小鹏谈及自动驾驶:包容失败、反对垄断,力争在国家层面出台指导意见...
- python 获取节假日
- 【转】解决keepalived正常启动但是虚IP(VIP)没有生成的问题
- shell 随机生成10个数,找出最大值
- c语言打开外部doc文件,C语言-内部函和外部函数.doc
- java.lang.NoClassDefFoundError: javax/transaction/Synchronization (jUnit测试报错)
- 不容易系列之(3)—— LELE的RPG难题 (递推dp)
- android+解锁工具,安卓手机解锁助手 (A Unlock Tool)
- Android 音频(一) _ 采样量化编码 AudioRecord 录制音频
- 在系统中增加各银行卡刷卡消费分析
- lstrip在python中是什么意思_什么样的墨算好墨,现在学书法还用墨块么,墨块墨水哪个好...
- windows7 安装 choco
- 无法启动此程序,因为计算机丢失api-ms-win-crt-process-l1-1-0.dll
- 来自菜鸟的逆袭,闭关修炼一个月,出关后成功拿下阿里,蚂蚁金服,美团三个大厂意向书!
- 中国科学院大学-计算机体系结构-胡伟武老师 复习、往年真题整理(含解答)
- python的mag模块_Python Decimal max_mag()用法及代码示例
- 网易云音乐开发--通过网易云音乐api,游客登录页面验证效果实现
- mysql食堂系统E R图_饭卡管理系统学生E-R图
热门文章
- JavaScript参考文档
- Win11如何进行重置电脑初始化
- 《商业的本质》读书笔记
- 三极管工作原理_三极管的工作原理是什么,详解三极管工作原理。
- excel函数 不能正常显示数字
- 第6章 威廉.詹姆斯——意识心理学
- winform程序:newtonsoft json 序列化时出现 “unterminated string. Excepted delimiter...
- EGM2008大地水准面模型在工程中的应用综述
- Python 实现 pdf转图片 和 图片转pdf
- unity WebGL射线检测