统计文件信息:

$ /opt/cdh-5.3.6/hadoop-2.5.0/bin/hdfs dfs -text /user/hadoop/wordcount/input/wc.input

hadoop spark

spark hadoop

oracle mysql postgresql

postgresql oracle mysql

mysql mongodb

hdfs yarn mapreduce

yarn hdfs

zookeeper

针对于以上文件使用hive做词频统计:

create table docs (line string);

load data inpath '/user/hadoop/wordcount/input/wc.input' into table docs;

create table word_counts as

select word,count(1) as count from

(select explode(split(line,' ')) as word from docs) word

group by word

order by word;

分段解释:

--使用split函数对表中行按空格进行分隔:

select split(line,' ') from docs;

["hadoop","spark",""]

["spark","hadoop"]

["oracle","mysql","postgresql"]

["postgresql","oracle","mysql"]

["mysql","mongodb"]

["hdfs","yarn","mapreduce"]

["yarn","hdfs"]

["zookeeper"]

--使用explode函数对split的结果集进行行拆列:

select explode(split(line,' ')) as word from docs;

word

hadoop

spark

spark

hadoop

oracle

mysql

postgresql

postgresql

oracle

mysql

mysql

mongodb

hdfs

yarn

mapreduce

yarn

hdfs

zookeeper

--以上输出内容已经满足对其做统计分析,这时通过sql对其进行分析:

select word,count(1) as count from

(select explode(split(line,' ')) as word from docs) word

group by word

order by word;

word    count

1

hadoop    2

hdfs    2

mapreduce    1

mongodb    1

mysql    3

oracle    2

postgresql    2

spark    2

yarn    2

zookeeper    1

mysql 词频分析工具_hive进行词频统计相关推荐

  1. (3.13)mysql基础深入——mysql日志分析工具之mysqlsla【待完善】

    (3.13)mysql基础深入--mysql 日志分析工具之mysqlsla 关键字:Mysql日志分析工具.mysqlsla 常用工具 [1]mysqldumpslow:官方提供的慢查询日志分析工具 ...

  2. 用javascript自制ctf词频分析工具

    不废话,上代码: <!DOCTYPE html> <html> <head><title></title> </head> &l ...

  3. mysql 性能分析_十大MySQL性能分析工具汇总!专治MySQL性能瓶颈

    前言 MySQL 数据库最常见的两个瓶颈是CPU和I/O的瓶颈.CPU在饱和的时候一般发生在数据装入内存或从磁盘上读取数据时候,磁盘I/O瓶颈发生在装入数据远大于内存容量的时候. MySQL数据库性能 ...

  4. MySQL性能分析工具的使用:慢查询日志、EXPLAN的使用、分析优化器执行计划:trace、MySQL监控分析视图-sys schema

    文章目录 1.数据库服务器的优化步骤 2.查看系统性能参数 2.1 语法 2.2 常用参数 3.统计SQL的查询成本:last_query_cost 4.定位执行慢的SQL:慢查询日志 4.1 慢查询 ...

  5. mysql日志分析工具之mysqlsla

    一.前言 当我们使用自己搭建的mysql的时候,如何排查慢日志呢?如何对慢日志进行分析呢? 下面介绍两款常用的慢日志分析工具: mysqldumpslow mysqlsla 二.mysqldumpsl ...

  6. mysql死锁分析工具show engine innodb status

    参考文章 <记录一次MySQL死锁的分析与解决过程> <mysql之show engine innodb status解读> <把MySQL中的各种锁及其原理都画出来&g ...

  7. mysql 查询分析工具下载_SQL分析工具下载-SQL查询工具(DB Solo)下载v5.2.5官方版-西西软件下载...

    DB Solo是一款完美的数据库查询分析工具.软件优秀跨平台SQL查询功能,支持所有主要DBMS产品:主要用于POJO的J2EE代码生成器,EJB 3.0批注,使用DAO  模式的JDBC持久层,JU ...

  8. mysql 索引分析工具_Mysql:性能分析以及Explain工具的使用

    ---恢复内容开始--- 1.介绍 Explain工具是用来分析sql语句性能的工具,他会显示出Mysql内部解析语句的状况 使用方法: explain+sql语句 例如 2.字段分析 一.ID字段 ...

  9. mysql性能分析工具profiling_Mysql系列(十)—— 性能分析工具profiling

    explain是从mysql怎样解析执行sql的角度分析sql优劣.profiling是从sql执行时资源使用情况的角度来分析sql. 分析SQL执行带来的开销是优化SQL的重要手段.在MySQL数据 ...

  10. MySQL性能分析工具

    第一节 统计SQL执行成本 统计SQL的查询成本: last_query_cost 一条SQL查询语句在执行前需要确定查询执行计划,如果存在多种执行计划的话,MySQL会计算每个执行计划所需要的成本, ...

最新文章

  1. Python中的map()函数
  2. 单片机涡轮流量传感器_暖通慧教你一文读懂流量传感器
  3. 交通运输部部长李小鹏谈及自动驾驶:包容失败、反对垄断,力争在国家层面出台指导意见...
  4. python 获取节假日
  5. 【转】解决keepalived正常启动但是虚IP(VIP)没有生成的问题
  6. shell 随机生成10个数,找出最大值
  7. c语言打开外部doc文件,C语言-内部函和外部函数.doc
  8. java.lang.NoClassDefFoundError: javax/transaction/Synchronization (jUnit测试报错)
  9. 不容易系列之(3)—— LELE的RPG难题 (递推dp)
  10. android+解锁工具,安卓手机解锁助手 (A Unlock Tool)
  11. Android 音频(一) _ 采样量化编码 AudioRecord 录制音频
  12. 在系统中增加各银行卡刷卡消费分析
  13. lstrip在python中是什么意思_什么样的墨算好墨,现在学书法还用墨块么,墨块墨水哪个好...
  14. windows7 安装 choco
  15. 无法启动此程序,因为计算机丢失api-ms-win-crt-process-l1-1-0.dll
  16. 来自菜鸟的逆袭,闭关修炼一个月,出关后成功拿下阿里,蚂蚁金服,美团三个大厂意向书!
  17. 中国科学院大学-计算机体系结构-胡伟武老师 复习、往年真题整理(含解答)
  18. python的mag模块_Python Decimal max_mag()用法及代码示例
  19. 网易云音乐开发--通过网易云音乐api,游客登录页面验证效果实现
  20. mysql食堂系统E R图_饭卡管理系统学生E-R图

热门文章

  1. JavaScript参考文档
  2. Win11如何进行重置电脑初始化
  3. 《商业的本质》读书笔记
  4. 三极管工作原理_三极管的工作原理是什么,详解三极管工作原理。
  5. excel函数 不能正常显示数字
  6. 第6章 威廉.詹姆斯——意识心理学
  7. winform程序:newtonsoft json 序列化时出现 “unterminated string. Excepted delimiter...
  8. EGM2008大地水准面模型在工程中的应用综述
  9. Python 实现 pdf转图片 和 图片转pdf
  10. unity WebGL射线检测