对一篇英文文章进行词频统计重点在于内容去噪和归一化,可用split()进行分词。本文以《飘》为例,统计词频最高的前十位。

1.读取文件,通过lower()、replace()函数将所有单词统一为小写,并用空格替换特殊字符。

def gettext():

txt = open("piao.txt","r",errors='ignore').read()

txt = txt.lower()

for ch in '!"#$&()*+,-./:;<=>?@[\\]^_{|}·~‘’':

txt = txt.replace(ch,"")

return txt

2.对处理后的文本进行词频统计存入字典。

txt = gettext()

words = txt.split()

counts = {}

for word in words:

counts[word] = counts.get(word,0) + 1

3.统计结果存为列表类型,按词频由高到低进行排序,输出前十位。

items = list(counts.items())

items.sort(key=lambda x:x[1],reverse=True)

for i in range(10):

word,count = items[i]

print("{0:<10}{1:>5}".format(word,count))

输入:

输出:

python英文词频统计去除定冠词_使用Python进行英文词频统计相关推荐

  1. 怎么判断冠词用a还是an_英文写作常见错误学习笔记 | 冠词

    写在前面的话 在知乎中看到"英文学术论文写作,有什么好书可以推荐"话题中有人推荐了香港大学出版社Steve Hart写的<English Exposed>一书,从副标题 ...

  2. 辨异 —— 冠词(定冠词、不定冠词、零冠词)

    冠词:article 不定冠词(Indefinite Article):a/an 定冠词(Definite Article):the 零冠词 1. 定冠词与不定冠词 正如名字所说,一般而言,定冠词修饰 ...

  3. 用法 the_英语冠词:不定冠词a,an和定冠词the的用法

    今天学习不定冠词a,an和定冠词the的用法. 图片来源于网络 冠词是用在名词前面的词语, 它不能独立使用. 冠词有三个:不定冠词a和an和定冠词the.如: the boy这个男孩 a bee一只蜜 ...

  4. 英语语法 定冠词与专有名词

    专有名词的定义是:只有一个对象存在的名词,像Genghis Khan和Taibei等.既然只有一个对象存在,就没有"这个"."那个"的分别,也就不能加定冠词th ...

  5. English - 定冠词和不定冠词(a an the) 的区别

    不定冠词表示泛指,定冠词表示特指. 不定冠词a (an)与数词one 同源,是"一个"的意思.a用于辅音音素前,一般读作[e],而an则用于元音音素前,一般读做[en].  1) ...

  6. 用python统计单词出现的个数_第1.4题:统计文件中单词出现个数

    题目来自:Python 练习册.今天做第四题:任一英文的纯文本文件,统计其中的单词出现个数. 铺垫工作 这一期的铺垫工作比较多,所以单独写了一篇文章,详见 Python正则表达式 正文部分 题目内容 ...

  7. python文本分词及去除停用词

    对于文本分词,此处使用的是python自带的jieba包进行,首先我们要先读取我们所需要分词的文章,然后使用jieba.cut进行分词,注意分词时要将这些段落归并成同一个字符串,然后输出的是一个列表. ...

  8. [Python]jieba切词 添加字典 去除停用词、单字 python 2020.2.10

    源码如下: import jieba import io import re#jieba.load_userdict("E:/xinxi2.txt") patton=re.comp ...

  9. python pil png合成gif储存时变黑_使用 Python 玩转图片

    我们有时候需要处理图片,对于一些不是非常复杂的图片处理,并非一定要使用 PS ,其实我们用 Python 代码也是可以实现滴-而且还挺方便,有些操作一两行代码就搞定了. 有个 Python Image ...

最新文章

  1. Spring Boot 2.3.0 发布:支持Java14、打包Docker镜像、优雅关机配置...
  2. jenkins和docker实现自动化构建部署
  3. 简单的复数运算(类和对象)_JAVA
  4. 【收藏】CentOS 7 安装NFS
  5. python rtf转txt_将DOC、RTF格式文件批量转为TXT格式文件
  6. kafka-manager配置和使用
  7. 用python画雪花飘落_简单说 JavaScript实现雪花飘落效果
  8. 滴滴顺风车方案引争议,柳青:我也觉得对女性不太好用
  9. Appium环境搭建(Java版本)
  10. UVa 400 (水题) Unix ls
  11. Java知多少(84)图形界面之布局设计
  12. (二)CXF之用CXF官方工具生成客户端Client
  13. CentOS7安装配置svn及svn hook实战
  14. 不确定性原理的前世今生 · 数学篇(完)
  15. turtle库绘图:绘制QQ所有表情
  16. composition API重构mixin实践
  17. 分布式存储Ceph之PG状态详解
  18. 怎么用dos系统进入服务器,怎么进入dos_如何进入dos的方法(图文介绍)
  19. Jetson Nano 安装deepStream
  20. Click Once使用总结

热门文章

  1. bzoj2426 [HAOI2010]工厂选址 读题+贪心
  2. 【英语学习】【English L06】U08 News L3 Was it drunk driving again?
  3. 【英语学习】【WOTD】disparage 释义/词源/示例
  4. Pentium II Pentium III架构/微架构/流水线 (5) - MMX
  5. linux设置php时间,修改 linux 时区时间和 php 时区(示例代码)
  6. python生成sql文件_Python 数据库Insert语句脚本生成工具(SQL Server)
  7. kernel开启启动log_systemd service 如何开启 core dump
  8. iOS如何退出测试软件,如何继续测试iOS应用程序,使用UIAutomation仪器,甚至应用程序退出后?(How to c...
  9. shiro将session认证改成token认证_初步学习Shiro框架 第一集
  10. 完整html生日祝福代码_孩子生日发朋友圈祝福语(一)!