统计一段英文的词频,以下代码只将标点符号省去,没有去除英文中介词,数词,人称代词等,如需要改进在统计时候直接去除相应词汇即可。

#读取文本
txt = open("english.txt","r",errors='ignore').read()
#字母变小写
txt = txt.lower()
for ch in '!"#$&()*+,-./:;<=>?@[\\]^_{|}·~‘’':
#替换标点txt = txt.replace(ch,"")
#根据空格,空字符,换行符,制表符进行分词
words = txt.split()
#记录词频
counts = {}
for word in words:counts[word] = counts.get(word,0) + 1items = list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(10):word,count = items[i]#分别左对齐占据10个单位,空格补全,右对齐五个单位,空格补全print("{0:<10}{1:>5}".format(word,count))

为了更好地体现文本的核心含义,下面我们采用jieba包的自然语言分析功能进行关键词的提取。

# 正则包
import re
# 自然语言处理包
import stringimport jieba
import jieba.analyse
# html 包
import htmlfrom numpy import *
from zhon import *with open('./english.txt', "rb") as x:content = x.read()    # 正则过滤content = re.sub("[{}]+".format(string.punctuation), " ", content.decode("utf-8"))# html 转义符实体化content = html.unescape(content)# 切割seg = [i for i in jieba.cut(content, cut_all=True) if i != '']# 提取关键词keywords = jieba.analyse.extract_tags("|".join(seg),topK=10, withWeight=True)# 分词与关键词提取keywords0 = keywordswith open('./keywords0.txt', 'w') as k0:k0.write(str(keywords0))k0.close()print('完成文章关键字提取!')

结果如下,后者为所占权重

[('Python', 0.4361421259243218),
('ILM', 0.36904333732058),
('production', 0.19011323437726846),
('was', 0.1789301029433115),
('its', 0.11183131433956968),
('used', 0.11183131433956968),
('into', 0.10064818290561271),
('process', 0.10064818290561271),
('systems', 0.08946505147165575),
('time', 0.08946505147165575)]

python统计英文文本词频和提取文本关键词相关推荐

  1. 用python统计英文文章词频

    import rewith open("text.txt") as f:#读取文件中的字符串txt = f.read()#去除字符串中的标点.数字等txt = re.sub('[, ...

  2. python 英语词频统计软件_Python实现统计英文文章词频的方法分析

    本文实例讲述了Python实现统计英文文章词频的方法.分享给大家供大家参考,具体如下: 应用介绍: 统计英文文章词频是很常见的需求,本文利用python实现. 思路分析: 1.把英文文章的每个单词放到 ...

  3. python 统计英文词频

    python 统计英文词频 (以1986-2017年考研英语真题为例) 运行截图: 代码: import re #除去简单词.序号等 excludes = ['the', 'of', 'to', 'a ...

  4. python英文词频统计-Python实现统计英文文章词频的方法分析

    本文实例讲述了Python实现统计英文文章词频的方法.分享给大家供大家参考,具体如下: 应用介绍: 统计英文文章词频是很常见的需求,本文利用python实现. 思路分析: 1.把英文文章的每个单词放到 ...

  5. python英文词频统计并按顺序输出_Python实现统计英文文章词频的方法分析

    本文实例讲述了python实现统计英文文章词频的方法.分享给大家供大家参考,具体如下: 应用介绍: 统计英文文章词频是很常见的需求,本文利用python实现. 思路分析: 1.把英文文章的每个单词放到 ...

  6. 如何用python统计英语文章词频?

    如何用python统计英语文章词频? **环境:**python3.0 需要统计的词频的txt文件(无中文) tips:word文档中一键替换中文([一-龥]) 代码如下 file = open('F ...

  7. Word控件Spire.Doc 【文本】教程(5) ;从 Word 文档中的文本框中提取文本

    文本框的目的是允许用户输入程序要使用的文本信息.也可以从文本框中提取现有的文本信息.以下指南重点介绍如何通过Spire.Doc for .NET从 C# 中 Word 文档的文本框中提取文本. Spi ...

  8. python基础编程 统计英语文章词频并排序 文本操作 继承

    python编程 统计英语文章词频 文本操作 继承 统计英语6级试题中所有单词的词频,并对词频进行排序 import re# 请根据处理要求下面区域完成代码的编写. def get_artical(a ...

  9. python统计中英文字符个数-Python统计英文、中文、数字、空格等字符数

    Python统计字母.中文.数字.空格等字符数 # 统计一行字符的不同字符个数 str = input("请输入一行字符:") count1 = count2 = count3 = ...

最新文章

  1. Swift中NSRange和Range的转换
  2. R语言使用car包的durbinWatsonTest函数检验回归模型的响应变量(或者残差)是否具有独立性(Independence、是否具有自相关关javascript系autocorrelated)
  3. 使用树莓派(Raspberry Pi)远程GPIO
  4. 关于const 修饰的一些知识
  5. Html和websocket初识
  6. codeforce 884C - Bertown Subway DFS+图论
  7. 北京林业大学计算机复试难度,北京林业大学考研难吗?一般要什么水平才可以进入?...
  8. SteinerTree模板
  9. 洛谷P3233 [HNOI2014]世界树
  10. 通知:逆天异常库 V1.0版本支持下载了~~
  11. 计算机基础cpu知识,CPU基础知识大全详解
  12. 行政区域村级划分数据库_两区划定数据库规范标准
  13. 计算机管理 合并分区,硬盘分区进行合并 硬盘分区后怎么合并
  14. 学生用计算机怎么调,学生计算器怎么调时间
  15. waf全称是什么?是干什么的?
  16. TS报错Error: xxx doesn‘t exist on type ‘xxx’
  17. 《java编程思想》第七章 复用类
  18. 浙江移动面试经验(2011)
  19. 宾得k5ii_【有图】小众宾得K5II学习一月有余,谈谈感想,发点作业-蜂鸟网
  20. 【不专一的开发】UML(二)---行为图(状态图、活动图、序列图、协同图)

热门文章

  1. 双极性归零码 matlab,双极性不归零码的Matlab实现
  2. 浅谈大型互联网的企业入/侵及防护策略
  3. 内存数据网格IMDG简介
  4. eNSP第五篇扩展1:vrrp over nqa,nqa探测,双重vrrp监听方法1,vrrp与nqa结合
  5. 2203-python基础知识
  6. 【读书笔记 | 自动驾驶中的雷达信号处理(第4章 雷达波形及其数学模型)】
  7. js:进制转换、保留指定位数小数、RGB/Hex颜色色值转换
  8. 教程:BootToGecko系统虚机与实机开发环境搭建及FirefoxOS设备使用和开发网站推荐;
  9. org.openxmlformats.schemas.spreadsheetml.x2006.main.CTFont.addNewFamily()
  10. 实例讲解FusionInsight MRS RTD 实时决策引擎在医保行业应用