方法一(分步查询):

1、首先创建一个文件单词的文件,例如a.txt

kk,123,weiwei,123
hlooe,hadoop,hello,ok
h,kk,123,weiwei,ok
ok,h

2、将文件上传到hdfs中

hdfs dfs -copyFromLocal ./a.txt /upload/wangwei/a.txt

3、在hive中创建一个textline的表

create table textlines(text string);

4、在hive中创建一个words表

create table words(word string);

5、加载数据到textline中

load data inpath '/upload/wangwei/a.txt' into table textline;

6、将textlines中的数据拆分根据','号拆分为单词,然后存入words表中

insert overwrite  table  words  select explode(split(text,',')) as word from textline;

7、进行单词统计

select word, count(*)  from words group by word;

20180621更新

方法二(使用sql子查询语句一条语句搞定):

1、首先将textline表中的数据炸裂开

select explode(split(text,',')) from textline;

2、将上面的结果as表t,然后对表t进行单词统计

select t.word,count(*) from((select explode(split(text,',')) as word from textline) as t)group by t.word;

3、按照统计出来的单词的顺序,从大到小排列,取前面三个值。对上面的count(*)进行排序

select t.word,count(*) as c from((select explode(split(text,',')) as word from textline) as t)group by t.word order by c desc limit 3;

4、将统计出来的结果放在hive表中

create table wordcount as select t.word,count(*) as c from((select explode(split(text,',')) as word from textline) as t)group by t.word order by c desc limit 3;select * from wordcount;

使用hive做单词统计相关推荐

  1. 启动Spark Shell,在Spark Shell中编写WordCount程序,在IDEA中编写WordCount的Maven程序,spark-submit使用spark的jar来做单词统计

    1.启动Spark Shell spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序.要注意的是要启动Spark-S ...

  2. hive进行词频统计

    统计文件信息: $ /opt/cdh-5.3.6/hadoop-2.5.0/bin/hdfs dfs -text /user/hadoop/wordcount/input/wc.input hadoo ...

  3. 大数据阶段划分及案例单词统计

    大数据阶段的重要课程划分 离线分析 : hadoop生态圈 HDFS, MapReduce(概念偏多), hive(底层是MapReduce), 离线业务分析80%都是使用hive实时分析 : spa ...

  4. 从单词统计问题看面试

    本文的很多内容来自网络.如有错误,欢迎指出. 问题描写叙述 首先这里对单词的界定是:以空白切割的字符序列. 单词统计的问题能够描写叙述为:在一篇正常格式的英文文档中(作为面试.这里并没有提及中文分词和 ...

  5. c语言文件加密解密单词统计,C语言文件加密解密及单词统计程序.doc

    C语言文件加密解密及单词统计程序.doc (10页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 15.9 积分  高级语言程序设计 课程设计学 院 计算 ...

  6. python数学基础——单词统计

    这个练习使用的是英文的单词统计,使用split通过单词中间的空格来做区分,在遍历的过程中通过对[字典]类型进行[字典推导式]的处理来计算每个单词出现的频次.但是由于过程中我们通过re的正则表达式来替换 ...

  7. 文本文件单词统计(C语言)

    文本文件单词统计(C语言) 本人目前还是一位在校大学生,写文章的目的是为了记录一下当前所学,与其他爱好者或从业者相互学习交流.文本文件单词统计这个题目是学校的一次课程设计中的一道,在编写时也是参考了很 ...

  8. python文本统计单词_Python实现文本单词统计

    在以前的文章中,我提到过Python标准库中的collections模块中的Counter类.它的作用非常大,这里我们要用利它来实现单词统计.对于任意一篇全英文的文本文件,我们要列出其中每一个单词各自 ...

  9. C语言怎么实现单词下落,如何用c语言实现单词统计

    如何用c语言实现单词统计 输入一串字符串,输出其中有多少个单词. 代码如下:#include #include #define SIZE 20 int main(){ char str[SIZE]={ ...

最新文章

  1. 微软获GPT-3独家授权,OpenAI创始人马斯克:与初衷相悖
  2. 数据库运维平台~开源成熟项目
  3. OpenStack Austin 峰会观察:OpenStack as IaaS 已是过去,Solutions on OpenStack 才是未来
  4. 【组合数学】组合存在性定理 ( 三个组合存在性定理 | 有限偏序集分解定理 | Ramsey 定理 | 相异代表系存在定理 | Ramsey 定理内容概要 )
  5. Linux系统存储交换机日志
  6. 20145302张薇《Java程序设计》实验三报告
  7. SpringEL expression:
  8. 用ASP.Net写一个发送ICQ信息的程序
  9. 字典爆破php,密码字典 渗透测试字典 爆破字典
  10. 三星升级助手无法连接服务器,三星S 换机助手不能连接手机怎么办?
  11. swfupload 无法加载_文件上传插件SWFUpload的使用指南
  12. Echarts地图深入+散点
  13. Wix安装包制作-个人总结
  14. ceph-deploy离线部署ceph集群及报错解决FAQ
  15. 策略模式——商品促销
  16. 需求文档 | 产品需求文档(PRD)
  17. Cyh和香穗子(NDK1352)
  18. CloudComparePCL 基于FPFH特征的SAC-IA算法
  19. nodejs 在执行 npm install 的时候出现问题
  20. Linux——扩展和缩减、删除逻辑卷

热门文章

  1. 2017年7月历史文章汇总
  2. 人工智能:语音识别技术介绍
  3. Kali新系统基本布置常见问题解决方案(也适用其它Linux)
  4. 项目:宅人食堂——点餐系统
  5. 二维码生成器-客户端
  6. 【研究】周耀旗写好英语科技论文的诀窍
  7. 转主流蓝牙BLE控制芯片详解(1):TI CC2540
  8. 时间复杂度和空间复杂度的概念及各种算法的时间复杂度 及举例
  9. 无代码五月大事件|微软低代码矩阵更新;多份行业报告发布...
  10. 诛仙很热,阅文集团的IP产业很冷