统计文件信息:

$ /opt/cdh-5.3.6/hadoop-2.5.0/bin/hdfs dfs -text /user/hadoop/wordcount/input/wc.input
hadoop spark
spark hadoop
oracle mysql postgresql
postgresql oracle mysql
mysql mongodb
hdfs yarn mapreduce
yarn hdfs
zookeeper

针对于以上文件使用hive做词频统计:

create table docs (line string);

load data inpath '/user/hadoop/wordcount/input/wc.input' into table docs;

create table word_counts as
select word,count(1) as count from
(select explode(split(line,' ')) as word from docs) word
group by word
order by word;

分段解释:

--使用split函数对表中行按空格进行分隔:

select split(line,' ') from docs;
["hadoop","spark",""]
["spark","hadoop"]
["oracle","mysql","postgresql"]
["postgresql","oracle","mysql"]
["mysql","mongodb"]
["hdfs","yarn","mapreduce"]
["yarn","hdfs"]
["zookeeper"]

--使用explode函数对split的结果集进行行拆列:

select explode(split(line,' ')) as word from docs;
word
hadoop
spark

spark
hadoop
oracle
mysql
postgresql
postgresql
oracle
mysql
mysql
mongodb
hdfs
yarn
mapreduce
yarn
hdfs
zookeeper

--以上输出内容已经满足对其做统计分析,这时通过sql对其进行分析:

select word,count(1) as count from
(select explode(split(line,' ')) as word from docs) word
group by word
order by word;

word    count
     1
hadoop    2
hdfs    2
mapreduce    1
mongodb    1
mysql    3
oracle    2
postgresql    2
spark    2
yarn    2
zookeeper    1

hive进行词频统计相关推荐

  1. Hadoop综合大作业补交4次作业:获取全部校园新闻,网络爬虫基础练习,中文词频统计,熟悉常用的Linux操作...

    1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计. (1)开启所有的服务,并创建文件夹wwc (2)查看目录下所有文件 (3)把hdfs文件系统中文件夹里的文 ...

  2. Hadoop的改进实验(中文分词词频统计及英文词频统计)(1/4)

    声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...

  3. MapRecuce 词频统计案例

    文章目录 初探MapReduce 一.MapReduce核心思想 二.MapReduce编程实例-词频统计思路 1.map阶段(映射) 2.reduce阶段(归并阶段) 三.词频统计编程实现 1.准备 ...

  4. 用R语言做词频统计_R语言 | 词频统计

    Python网络爬虫与文本数据分析 本章内容 导入停用词 读数据,分词 剔除停用词 导入停用词表 library(dplyr) ## [1] "?" "." & ...

  5. 统计csv词频_中文词频统计

    中文词频统计 1. 下载一长篇中文小说. <倚天屠龙记> 2. 从文件读取待分析文本. 3. 安装并使用jieba进行中文分词. pip install jieba import jieb ...

  6. 201671010417 金振兴 词频统计软件项目报告

    1.需求分析 按照<构建之法>第2章中2.3所述PSP流程,使用JAVA编程语言,独立完成一个英文文本词频统计的软件开发. .程序可读入任意英文文本文件,该文件中英文词数大于等于1个. . ...

  7. 字符串操作、文件操作,英文词频统计预处理

    1.字符串操作: 解析身份证号:生日.性别.出生地等 凯撒密码编码与解码 网址观察与批量生成 (1)解析身份证: 编译结果: (2)凯撒密码编码与解码 编译结果: 2.英文词频统计预处理 下载一首英文 ...

  8. Python_note6 组合数据类型+jieba库+文本词频统计

    集合类型和操作 集合元素不可修改,由不可变数据类型组成,元素不可重复 a = {"python",123,("python",123)}使用{}建立集合 b = ...

  9. 软工作业3: 词频统计

    词频统计 一.编译环境 (1)IDE:PyCharm 2018 (2)python版本:python3.6.3(Anaconda3-5.1.0  ) 二.程序分析 (1)读文件到缓冲区(process ...

最新文章

  1. MF RC522读卡芯片手册
  2. 桶排序+基数排序+计数排序
  3. YBTOJ洛谷P4074:糖果公园(树上莫队)
  4. 椭圆极点极线性质_又见阿氏圆——适合作椭圆大题的小题
  5. 现在好多人做 局域网聊天
  6. python与excel-Python与Excel 不得不说的事情
  7. “欣喜”和“郁闷”交织的2006
  8. PMP试题 | 每日一练,快速提分 9.9
  9. arm-linux 交叉编译toolchain
  10. VC6.0中使用64位整型
  11. 面试后要请你吃饭_面试官发出这5个信号,暗示你面试基本成功了,请做好准备!...
  12. java练习题-猜数字游戏
  13. 蚂蚁金服揭”老底“:港版支付宝的区块链跨境汇款与Ripple、Circle大不同
  14. linux权限管理的设计,Linux权限管理漫谈之用户切换
  15. 一辆适合长途出行的电动跑车 奥迪RS e-tron GT正式上市
  16. C#动态创建lambda表达式
  17. c语言中swap的意思,C语言中swap的作用和用法?
  18. 一周信创舆情观察(2.22~2.28)
  19. 球差电镜测试常见的问题及解答(二)
  20. 写给扎克伯格的一封信:不要让我们失望!

热门文章

  1. CentOs 6.0 下安装cacti的syslog插件
  2. tcp和udp多线程的epoll服务器+客户端源代码 - brucema的个人空间 - 开源中国社区
  3. 57-高级路由:分发列表:多协议分发列表实验:DV、LS
  4. 脱贫利器 | PYTHON多线程行情抓取工具实现
  5. 打造新型智慧城市标杆 金华跻身中国城市信息化50强
  6. ajax提交Form
  7. 动态树形列表基本原理演示
  8. Python之路--WEB框架本质
  9. 玩转java(Android)注解
  10. SpringMVC实现文件的上传和下载