使用hive做单词统计
方法一(分步查询):
1、首先创建一个文件单词的文件,例如a.txt
kk,123,weiwei,123
hlooe,hadoop,hello,ok
h,kk,123,weiwei,ok
ok,h
2、将文件上传到hdfs中
hdfs dfs -copyFromLocal ./a.txt /upload/wangwei/a.txt
3、在hive中创建一个textline的表
create table textlines(text string);
4、在hive中创建一个words表
create table words(word string);
5、加载数据到textline中
load data inpath '/upload/wangwei/a.txt' into table textline;
6、将textlines中的数据拆分根据','号拆分为单词,然后存入words表中
insert overwrite table words select explode(split(text,',')) as word from textline;
7、进行单词统计
select word, count(*) from words group by word;
20180621更新
方法二(使用sql子查询语句一条语句搞定):
1、首先将textline表中的数据炸裂开
select explode(split(text,',')) from textline;
2、将上面的结果as表t,然后对表t进行单词统计
select t.word,count(*) from((select explode(split(text,',')) as word from textline) as t)group by t.word;
3、按照统计出来的单词的顺序,从大到小排列,取前面三个值。对上面的count(*)进行排序
select t.word,count(*) as c from((select explode(split(text,',')) as word from textline) as t)group by t.word order by c desc limit 3;
4、将统计出来的结果放在hive表中
create table wordcount as select t.word,count(*) as c from((select explode(split(text,',')) as word from textline) as t)group by t.word order by c desc limit 3;select * from wordcount;
使用hive做单词统计相关推荐
- 启动Spark Shell,在Spark Shell中编写WordCount程序,在IDEA中编写WordCount的Maven程序,spark-submit使用spark的jar来做单词统计
1.启动Spark Shell spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序.要注意的是要启动Spark-S ...
- hive进行词频统计
统计文件信息: $ /opt/cdh-5.3.6/hadoop-2.5.0/bin/hdfs dfs -text /user/hadoop/wordcount/input/wc.input hadoo ...
- 大数据阶段划分及案例单词统计
大数据阶段的重要课程划分 离线分析 : hadoop生态圈 HDFS, MapReduce(概念偏多), hive(底层是MapReduce), 离线业务分析80%都是使用hive实时分析 : spa ...
- 从单词统计问题看面试
本文的很多内容来自网络.如有错误,欢迎指出. 问题描写叙述 首先这里对单词的界定是:以空白切割的字符序列. 单词统计的问题能够描写叙述为:在一篇正常格式的英文文档中(作为面试.这里并没有提及中文分词和 ...
- c语言文件加密解密单词统计,C语言文件加密解密及单词统计程序.doc
C语言文件加密解密及单词统计程序.doc (10页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 15.9 积分 高级语言程序设计 课程设计学 院 计算 ...
- python数学基础——单词统计
这个练习使用的是英文的单词统计,使用split通过单词中间的空格来做区分,在遍历的过程中通过对[字典]类型进行[字典推导式]的处理来计算每个单词出现的频次.但是由于过程中我们通过re的正则表达式来替换 ...
- 文本文件单词统计(C语言)
文本文件单词统计(C语言) 本人目前还是一位在校大学生,写文章的目的是为了记录一下当前所学,与其他爱好者或从业者相互学习交流.文本文件单词统计这个题目是学校的一次课程设计中的一道,在编写时也是参考了很 ...
- python文本统计单词_Python实现文本单词统计
在以前的文章中,我提到过Python标准库中的collections模块中的Counter类.它的作用非常大,这里我们要用利它来实现单词统计.对于任意一篇全英文的文本文件,我们要列出其中每一个单词各自 ...
- C语言怎么实现单词下落,如何用c语言实现单词统计
如何用c语言实现单词统计 输入一串字符串,输出其中有多少个单词. 代码如下:#include #include #define SIZE 20 int main(){ char str[SIZE]={ ...
最新文章
- 微软获GPT-3独家授权,OpenAI创始人马斯克:与初衷相悖
- 数据库运维平台~开源成熟项目
- OpenStack Austin 峰会观察:OpenStack as IaaS 已是过去,Solutions on OpenStack 才是未来
- 【组合数学】组合存在性定理 ( 三个组合存在性定理 | 有限偏序集分解定理 | Ramsey 定理 | 相异代表系存在定理 | Ramsey 定理内容概要 )
- Linux系统存储交换机日志
- 20145302张薇《Java程序设计》实验三报告
- SpringEL expression:
- 用ASP.Net写一个发送ICQ信息的程序
- 字典爆破php,密码字典 渗透测试字典 爆破字典
- 三星升级助手无法连接服务器,三星S 换机助手不能连接手机怎么办?
- swfupload 无法加载_文件上传插件SWFUpload的使用指南
- Echarts地图深入+散点
- Wix安装包制作-个人总结
- ceph-deploy离线部署ceph集群及报错解决FAQ
- 策略模式——商品促销
- 需求文档 | 产品需求文档(PRD)
- Cyh和香穗子(NDK1352)
- CloudComparePCL 基于FPFH特征的SAC-IA算法
- nodejs 在执行 npm install 的时候出现问题
- Linux——扩展和缩减、删除逻辑卷