如何用python统计英语文章词频?

**环境:**python3.0
需要统计的词频的txt文件(无中文)
tips:word文档中一键替换中文([一-龥])

代码如下

file = open('F://文件//qq.txt','r',encoding="gbk").read() #open生成一个file对象
file = file.lower()                         #排除大小写的影响strip_str = '.(),:"“”;->=\'+)?—0123456789?…[]{}¥/_!°、-﹣$&★*'                 #符号不计入要统计的单词中
for ch in strip_str:                        #要尝试多次file = file.replace(ch,' ') counts = {}words = file.split()
for word in words:                          #统计频次if word in counts:counts[word]=counts[word]+1elif word not in counts:                #处理第一次出现的单词counts[word]=1items = list(counts.items())
items1 = sorted(items,key = lambda x: x[1],reverse=True)#按照频次排序word_frequency = open('word_frequency.txt','w',encoding='utf-8')for i in items1:word_frequency.write('{0}:\t{1}\n'.format(i[0],i[1]))word_frequency.close()

结果展示

在文件夹生成word_frequency文件

代码源文件链接
//download.csdn.net/download/zhouzongzs/12243480
关注我,更多小技巧一起共享
如果能给到你一丝帮助,我将倍感欣慰。如有其他意见,可以私下联系我。

如何用python统计英语文章词频?相关推荐

  1. python基础编程 统计英语文章词频并排序 文本操作 继承

    python编程 统计英语文章词频 文本操作 继承 统计英语6级试题中所有单词的词频,并对词频进行排序 import re# 请根据处理要求下面区域完成代码的编写. def get_artical(a ...

  2. 用python统计英文文章词频

    import rewith open("text.txt") as f:#读取文件中的字符串txt = f.read()#去除字符串中的标点.数字等txt = re.sub('[, ...

  3. python 英语词频统计软件_Python实现统计英文文章词频的方法分析

    本文实例讲述了Python实现统计英文文章词频的方法.分享给大家供大家参考,具体如下: 应用介绍: 统计英文文章词频是很常见的需求,本文利用python实现. 思路分析: 1.把英文文章的每个单词放到 ...

  4. python英文词频统计-Python实现统计英文文章词频的方法分析

    本文实例讲述了Python实现统计英文文章词频的方法.分享给大家供大家参考,具体如下: 应用介绍: 统计英文文章词频是很常见的需求,本文利用python实现. 思路分析: 1.把英文文章的每个单词放到 ...

  5. python英文词频统计并按顺序输出_Python实现统计英文文章词频的方法分析

    本文实例讲述了python实现统计英文文章词频的方法.分享给大家供大家参考,具体如下: 应用介绍: 统计英文文章词频是很常见的需求,本文利用python实现. 思路分析: 1.把英文文章的每个单词放到 ...

  6. 【第二周】Java实现英语文章词频统计

    1.需求:对于给定的英文文章进行单词频率的统计 2.分析: (1)建立一个如下图所示的数据库表word_frequency用来存放单词和其对应数量 (2)Scanner输入要查询的英文文章存入Stri ...

  7. python统计段落单词词频_使用Python统计文件中词频,并且生成词云

    wordcloud Table of Contents 1 怎样使用Python产生词云 from wordcloud import WordCloud import matplotlib.pyplo ...

  8. python统计英文文本词频和提取文本关键词

    统计一段英文的词频,以下代码只将标点符号省去,没有去除英文中介词,数词,人称代词等,如需要改进在统计时候直接去除相应词汇即可. #读取文本 txt = open("english.txt&q ...

  9. 用Python统计瓦尔登湖的词频

    在文本处理中,我们经常需要对文本中的单词出现频率做一个统计,本文以英文小说<瓦尔登湖>为例,统计一下作者最喜欢用什么单词,他们各自的出现频率如何. 首先需要<瓦尔登湖>的文本: ...

最新文章

  1. 零基础怎么学习Java?
  2. linux 更改文件所有者
  3. Kibana 创建索引 POST 403 (forbidden) on create index
  4. 析构函数和动态内存管理
  5. linux expr格式,计算2-expr命令举例
  6. 数据可视化 信息可视化_更好的数据可视化的8个技巧
  7. linux scp命令_太麻烦!使用 Linux scp 命令下载文件到 Windows 桌面
  8. ajax获取nodejs的值,jquery - NodeJS如何获取服务器中的数据,通过POST从jquery ajax调用发送 - 堆栈内存溢出...
  9. 线性代数——向量的乘法计算
  10. UVA - 10098 Generating Fast
  11. cta 音频测试_CTA入网认证一般测试哪些项目流程
  12. 微信发红包、QQ登录、搜索框、水杯、聊天窗口、两台电梯、微信/淘宝支付、笔、 抖音发布短视频等功能测试用例
  13. Mysql的基本操作和注意点
  14. Linux - 常见端口和服务的对照和解释
  15. str_split() 函数
  16. 并不对劲的[Noi2008]道路设计
  17. 【tarjan强连通分量】洛谷P1726 上白泽慧音
  18. 【剑桥英语I优加】剑桥ket考试适合几年级的孩子
  19. (一)语法 基础概念
  20. 如何在本地编译器进行油猴脚本的开发

热门文章

  1. 基于深度学习的新冠疫情数据分析
  2. Python3中关于下划线变量和命名的总结
  3. Dapper入门使用
  4. 2020-03-31 获取微信好友真实地址
  5. 超详细如何配置高级ACL
  6. 解决Eclipse不出提示
  7. 基于SPRINGBOOT果多多水果电商平台
  8. 单元测试总结反思_单元测试后反思
  9. android qq三方登录授权失败,QQ第三方登录无法授权错误码110401的解决方法
  10. 【mysql】关闭mysql缓存的方法