python英文文本词频统计_Python英文文章词频统计(14份剑桥真题词频统计)
Python剑桥真题词频统计
最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如数字,普通冠词等,博主较懒,未清楚干净。
Python代码如下:
import jieba
# 以只读方式打开text(即真题库)
text = open('text.txt', 'r', encoding = 'utf-8').read()
# len(text)
#统一为小写
text = text.lower()
# 需要剔除的词汇列表,也可以用记事本的形式,添加一个打开记事本的语句即可
# 即 stwlist = [line.strip() for line in open 'stopwords.txt',encoding='utf-8').readlines()]
# 这里使用列表
stwlist = ['the','a','of','to','end','in','you','is','that','for','on','it','as','your','...','14',
'this','or','20','40','27','30','13','21','26','10','15','22',
'32','31','1','2','4','5','6','7','8','9','0','10','11','12','13',
'12','13','15','16','17','25','33','35','36','18','23','19','24',
'38','29','34','37','000','...............................']
# 先进行分词
words = jieba.cut(text, cut_all = False, HMM = True)
#cut_all:是否采用全模式
#HMM:是否采用HMM模型
word_ = {}
for word in words:
if (word.strip() not in stwlist):
if len(word) > 1:
if word != '\t':
if word != '\r\n':
# 计算词频
if word in word_:
word_[word] += 1
else:
word_[word] = 1
# 将结果保存为元组
word_freq = []
for word, freq in word_.items():
word_freq.append((word, freq))
# 降序排列
word_freq.sort(key = lambda x:x[1], reverse = True)
#输出前3500个词汇
for i in range(3500):
word, freq = word_freq[i]
print('{0:10}{1:5}'.format(word, freq))
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持聚米学院。
python英文文本词频统计_Python英文文章词频统计(14份剑桥真题词频统计)相关推荐
- 蓝桥杯真题——成绩统计
蓝桥杯真题--成绩统计 题目地址 https://www.lanqiao.cn/problems/502/learning/ c++代码 法1.round()函数四舍五入保留整数 #include&l ...
- matlab英文文本信息量,实验一英文文本信息量的计算-Read.doc
实验一英文文本信息量的计算-Read 实验一 英文文本信息量的计算 一 实验目的 1 通过本实验熟悉Matlab软件编程环境 2 编写M文件实现对英文文本信息量的计算,掌握信源熵的计算方法 二 实验要 ...
- python输出文本和值_python读取文本中数据并转化为DataFrame的实例
在技术问答中看到一个这样的问题,感觉相对比较常见,就单开一篇文章写下来. 从纯文本格式文件 "file_in"中读取数据,格式如下: 需要输出成"file_out&quo ...
- python分词考研英语真题词频(附结果)——读取word、nltk、有道智云API
打算用python分析一次啊考研真题单词的词频,并加上翻译等内容,方便背诵 读取word文件 手头有近20年的考研英语一二真题word文件几十个,需要对每个文件的内容进行读取,并提取属于文章和题目的部 ...
- python在文本添加超链接_Python将超链接文本打印到Spyder控制台(Python print hyperlinked text to Spyder Console)...
Python将超链接文本打印到Spyder控制台(Python print hyperlinked text to Spyder Console) 我在Windows 7上使用WinPython发行版 ...
- python清洗文本非法字符_Python 文本字符串清理
文本字符串清理 由于收集来源的问题(比如,表单文本数据录入错误,甚至于有意录入错误的数据),文本字符串往往需要先进行清理才能够在后续的需求中发挥正常且正确的作用. 删除字符串中多余的字符 在文本字符串 ...
- python输出文本 去掉引号_Python可以在文本文件中读取时从字符串中删除双引号吗?...
我有一些这样的文本文件,有5000行: 5.6 4.5 6.8 "6.5" (new line) 5.4 8.3 1.2 "9.3" (new line) ...
- python读取文本并且替换_python 读取文件并替换字段的实例
如下所示: fp = open(''test2.txt','w') #打开你要写得文件test2.txt lines = open('test1.txt').readlines() #打开文件,读入每 ...
- python替换文本换行符_python解决replace(“/n“,““)无法替换换行符
先看原数据,一直在想办法清除 "\n"和"/"这两个符号. # 从提取出的几列来看,还有些细节需要再洗洗:例如为了统计和美观需要,"\n"和 ...
最新文章
- vue 手机键盘把底部按钮顶上去
- 阿里云高可用-容灾解决方案
- Keil编译产生的RO,RW和ZI是什么
- Ubuntu20.04开机界面(boot animation)改成Windows95
- Tomcat集群session复制与Oracle的坑
- 牛客15187 分元宵 (快速幂)
- 实战:隐藏SpringBoot中的私密数据!
- MySQL常见面试题与答案
- mysql模糊查询占位符python_python中的mysql数据库like模糊查询
- C语言atoi()函数:将字符串转换成int(整数)
- js Math对象属性和方法
- Android项目(完整版+免费版)
- CI520只有SPI通讯接口,支持读写A卡,PIN对PIN直接替换CV520软硬件兼容
- mac简体拼音打出来是英文_mac怎样打出拼音 - 卡饭网
- 《编码-隐匿在计算机软硬件背后的语言》--读后小记
- 重返设计模式--状态模式
- 中国报纸今年十大流行语发布:虐俘和审计风暴
- UGUI - 制作九宫贴图
- Records of Reinfocement Learning Experiments
- JVM内存模型是什么?
热门文章
- 我常用的几个第三方 Python 库
- HTML入门基础教程
- c语言实现伽罗华域乘法器,[2018年最新整理]伽罗瓦域GF(2^128)乘法器的设计.doc
- sd卡数据恢复软件免费版从哪里可以获得
- 科讯CMS V9.0标签大全
- 到linux_Linux权限管理 -- linux用户
- .vue文件_Spring Boot + Vue 前后端分离,两种文件上传方式总结!
- iOS 6 Passbook 入门 2/2
- 洪水攻击以及防治方法
- matrix67文章学习