linux  输出某个文件的单词出现频率

  解决方式

cat words.txt |awk '{for(i=1;i<=NF;i++) print $i;}'|sort|uniq -c|sort -r|awk '{print $2,$1;}'

  1、读出文件 cat xxx.txt

  

  2、awk 逐行读入,按空格将每行分割 然后处理 (awk 常用命令参考 https://www.cnblogs.com/xiaoleiel/p/8349487.html)

    

    awk NF 每一行的单词数量

     '{for(i=1;i<= NF;i++)print $i}' 逐行逐词输出单词

  3、sort 按词排序,将相同的词语放在一起

  

  4、uniq -c 按词统计次数

  

  5、sort -r 按照第一行 倒叙排序

  

  6、 awk '{print $2,$1}' 按照格式输出

  

  

sort 命令参数 http://www.runoob.com/linux/linux-comm-sort.html

参  数:-b   忽略每行前面开始出的空格字符。-c   检查文件是否已经按照顺序排序。-d   排序时,处理英文字母、数字及空格字符外,忽略其他的字符。-f   排序时,将小写字母视为大写字母。-i   排序时,除了040至176之间的ASCII字符外,忽略其他的字符。-m   将几个排序好的文件进行合并。-M   将前面3个字母依照月份的缩写进行排序。-n   依照数值的大小排序。-o<输出文件>   将排序后的结果存入指定的文件。-r   以相反的顺序来排序。-t<分隔字符>   指定排序时所用的栏位分隔字符。+<起始栏位>-<结束栏位>   以指定的栏位来排序,范围由起始栏位到结束栏位的前一栏位。--help   显示帮助。--version   显示版本信息

uniq http://www.runoob.com/linux/linux-comm-uniq.html

语法
uniq [-cdu][-f<栏位>][-s<字符位置>][-w<字符位置>][--help][--version][输入文件][输出文件]参数:
-c或--count 在每列旁边显示该行重复出现的次数。
-d或--repeated 仅显示重复出现的行列。
-f<栏位>或--skip-fields=<栏位> 忽略比较指定的栏位。
-s<字符位置>或--skip-chars=<字符位置> 忽略比较指定的字符。
-u或--unique 仅显示出一次的行列。
-w<字符位置>或--check-chars=<字符位置> 指定要比较的字符。
--help 显示帮助。
--version 显示版本信息。
[输入文件] 指定已排序好的文本文件。如果不指定此项,则从标准读取数据;
[输出文件] 指定输出的文件。如果不指定此选项,则将内容显示到标准输出设备(显示终端)。

  

  

转载于:https://www.cnblogs.com/jiuyang/p/10557812.html

linux - word frequency相关推荐

  1. aspose win/linux WORD转PDF(及其解决乱码方式)

    aspose win/linux WORD转PDF(及其解决乱码方式) 1.工具类 2.控制台 3.解决乱码 4.JAR包 之前自己用的docm4j 本地进行转换是ok 在服务器中就异常了: 后来在网 ...

  2. Individual Project - Word frequency program-11061171-MaoYu

    BUAA Advanced Software Engineering Project:  Individual Project - Word frequency program Ryan Mao (毛 ...

  3. Python:实现word frequency functions词频函数算法(附完整源码)

    Python:实现word frequency functions词频函数算法 import string from math import log10 def term_frequency(term ...

  4. linux word 转 pdf 上类似百度文库开发研究与实战

    缘起 由于项目需要开发了类似百度文库和DOCIN类似的Flash播放器读取上传文档的系统,虽然最终技术问题都得以解决,但开发的过程中走了不少弯路,浪费了不少时间,特别是FlexPaper去掉自带的Lo ...

  5. aspose-words 解决Linux word转pdf 乱码和出现小方块问题

    Windows正常转换,在linux中转换就出现小方块 原因分析: 在window下没有问题但是在linux下有问题,就说明不是代码或者输入输出流编码的问题,根本原因是两个平台环境的问题.出现乱码说明 ...

  6. 192. Word Frequency 使用shell统计词频

    答案 cat words.txt | sed 's/ /\n/g' | sed '/^$/d' | sort | uniq -c | awk '{print $2, $1}' | sort -nrk2 ...

  7. Project: Individual Project - Word frequency program----11061192zmx

    Description & Requirements http://www.cnblogs.com/jiel/p/3311400.html 项目时间估计 理解项目要求: 1小时 构建项目逻辑: ...

  8. Linux命令行如何编辑word文档,在Linux平台下用命令行工具显示Word文档

    在Linux平台下用命令行工具显示Word文档 ·Antiword ·Catdoc ·wvWare[@more@] Viewing Word files at the command line Wed ...

  9. jquery程序 windows移植到linux显示不了,windows程序移植linux

    1,路径名统一用正斜杠"/".(windows下正反斜杠都识别,linux只认正斜杠.) 2,统一使用UTF-8格式编码. vim中无法保存汉字时,可输入下列命令: :set fi ...

最新文章

  1. Python基础之模块与包
  2. 用c语言编程求主析取范式,求主析取范式.cpp · wangzhankun/C-Programming-Learn - Gitee.com...
  3. PostgreSQL日期函数备忘
  4. 04 列表的增删改查 常用方法 元祖 range
  5. jQuery的radio,checkbox,select操作
  6. window下用主机名登录MySQL数据库出现报错解决方案
  7. 我不是领导,如何让别人听我的话?
  8. Activity是如何挂载Pargment的Day35
  9. LOJ 2743(洛谷 4365) 「九省联考 2018」秘密袭击——整体DP+插值思想
  10. java 管理多线程_Java线程管理(一)多线程
  11. API网关之-协议转换原理
  12. 计算机在未来对人类生活的影响,日常生活中计算机技术的发展对我们的影响
  13. detecting current sdk tools version
  14. s饥荒服务器物品id,流年饥荒控制台指令大全+物品大全+服务器管理命令大全.docx...
  15. API获取天气数据方法——中国天气网数据API下载及处理
  16. sudo报错:no valid sudoers sources found, quitting
  17. mysql安装教程5.1_mysql 5.1安装教程详解
  18. 我差点错过高校毕业生毕业之后这个3000元现金直接打入银行卡的补贴!
  19. 1架飞机,加满油可以跑1的距离,问N架飞机最多能跑多远
  20. 多少往事付东风,go with wind

热门文章

  1. arthas案例:哪个controller处理了请求?每个请求的调用参数和返回值是多少?
  2. 【实操】Y7000P 2020款安装黑苹果完整步骤记录
  3. Scala概述及学习Scala的优势
  4. JVM 的内存模型及jstat命令的使用
  5. 优惠券卡包应用数据库字段设计/系统架构设计/缓存层设计方案
  6. 解决idea application context not configured for this file的问题
  7. drive数据集_英伟达的最强人脸GAN开源了,它吃的高清数据集也开源了
  8. 最小生成树(普里姆算法【Prim】与克鲁斯卡尔算法【Kruskal】)
  9. oracle索引中丢失in或out参数,oracle 11g给表建触发器错误“索引中丢失 IN 或 OUT 参数:: 1...
  10. linux如何捕获9的信号,2018-9-17-bash之信号捕捉