对一篇英文文章进行词频统计重点在于内容去噪和归一化,可用split()进行分词。本文以《飘》为例,统计词频最高的前十位。

1.读取文件,通过lower()、replace()函数将所有单词统一为小写,并用空格替换特殊字符。

def gettext():txt = open("piao.txt","r",errors='ignore').read()txt = txt.lower()for ch in '!"#$&()*+,-./:;<=>?@[\\]^_{|}·~‘’':txt = txt.replace(ch,"")
return txt

2.对处理后的文本进行词频统计存入字典。

txt = gettext()
words = txt.split()
counts = {}
for word in words:counts[word] = counts.get(word,0) + 1

3.统计结果存为列表类型,按词频由高到低进行排序,输出前十位。

items = list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(10):word,count = items[i]print("{0:<10}{1:>5}".format(word,count))

输入:

输出:

使用Python进行英文词频统计相关推荐

  1. python英文词频统计去除定冠词_使用Python进行英文词频统计

    对一篇英文文章进行词频统计重点在于内容去噪和归一化,可用split()进行分词.本文以<飘>为例,统计词频最高的前十位. 1.读取文件,通过lower().replace()函数将所有单词 ...

  2. Python英文词频统计(哈姆雷特)程序示例

    今天继续给大家介绍Python相关知识,本文主要内容是Python英文词频统计程序示例,主要是对英文文本--<哈姆雷特>进行分词. 一.英文文本词频统计思路 想要对<哈姆雷特> ...

  3. Python 《Hamlet》哈姆雷特英文词频统计

    英文词频统计 关键问题: 1.词语 -- 键 2.相同词语的累加 -- 值 讨论:定义什么数据类型 -- 字典类型 问题描述: I:文件的输入 P:采用字典类型的结构统计词语出现的频率 O:每个单词及 ...

  4. Hadoop的改进实验(中文分词词频统计及英文词频统计)(1/4)

    声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...

  5. 组合数据类型练习,英文词频统计实例上(2017.9.22)

    字典实例:建立学生学号成绩字典,做增删改查遍历操作. sno=['33号','34号','35号','36号'] grade=[100,90,80,120] d={'33号':100,'34号':90 ...

  6. Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)

    声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...

  7. 组合数据类型练习,英文词频统计实例上

    1.name=['陈楠芸','陈文琪','刘书签','杨必须'] scores=[7,6,6,5] d={'陈楠芸':7,'陈文琪':6,'刘书签':6,'杨必须':5} print(d) #增加 d ...

  8. Hadoop的改进实验(中文分词词频统计及英文词频统计)(2/4)

    声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...

  9. 浅析如何用Python进行中英文词频统计

    浅析如何用Python进行中英文词频统计 主要思路: 读取数据 数据预处理 分词 词频统计 结果显示 词频统计 TF-IDF(term frequency–inverse document frequ ...

最新文章

  1. python怎么画条形图-如何在Bokeh(Python)中绘制水平条形图
  2. 写在树莓派专栏的开篇
  3. php对称算法_php里简单的对称加密算法
  4. 20050708:我还是忍忍吧
  5. 外挂学习之路(6)--- 选怪call
  6. 我最喜欢的Java拼图2 + 1 = 4
  7. java知识点3(null、引用相关知识(自己理解))
  8. thinkphp后台_前后端分离决方案|thinkphpvueadmin 后台接口
  9. 把想法变成现实-兄弟连IT教育
  10. Flex和Flash开发人员的Adobe Flash Player( Windows )调试器( 也称为调试播放器或内容调试器 )和独立播放器( 又名投影仪 )
  11. java下雪_下雪屏保java,基础
  12. 微信小程序开发---微信获取微信绑定手机号并登录流程
  13. rar文件解压后可以删除吗?rar文件删除后怎么恢复?
  14. java大文件加密速度_java版AES文件加密速度问题
  15. WPF 仿安卓手势解锁 图案解锁
  16. 操作系统常见错误代码总结
  17. Android6.0指纹解锁demo
  18. 超融合基础架构HCI新特性
  19. ATFX国际:英国与欧盟签订新协议,畅通与北爱尔兰之间贸易往来
  20. 如何在Java中创建临时文件?

热门文章

  1. 自学Java真能找到好工作吗
  2. vscode 插件--汉化、主题、字体
  3. 易语言-画板取色和画点
  4. 练习下csnd博客怎么用
  5. 基于Vue+Vue-cli+webpack搭建渐进式高可维护性前端实战项目
  6. 计算机控制河南工业大学,大学计算机控制技术实验报告河南工业大学3.docx
  7. 北京二手房市场坐地涨价 卖方几分钟涨几万元
  8. [转载]处处皆有学问.
  9. 大数据爬虫基础(三)Scrapy在ubuntu 16.04下的安装
  10. 基于 Tensorflow 2.x 从零训练花卉图像识别模型