python3txt删除高频低频词_清理.txt并计算最常出现的单词
我需要
1)从停止字列表中清除一个.txt,我把它放在一个单独的.txt中。在
2)之后,我需要数一数25个最常用的单词。在
这是我第一部分的想法:#!/usr/bin/python
# -*- coding: iso-8859-15 -*-
import re
from collections import Counter
f=open("text_to_be_cleaned.txt")
txt=f.read()
with open("stopwords.txt") as f:
stopwords = f.readlines()
stopwords = [x.strip() for x in stopwords]
querywords = txt.split()
resultwords = [word for word in querywords if word.lower() not in stopwords]
cleantxt = ' '.join(resultwords)
对于第二部分,我使用以下代码:
^{pr2}$
要清理的源文件如下所示:
(二)
第二段第一句末尾应加上“并致高级代表”;第二句中,“每年举行一次辩论”改为“每年举行两次辩论”,并改为“每年举行两次辩论”,“包括共同安全和防卫政策”应插入末尾。在
非索引字表如下:
这
这是
他们
你
这个
然后
从那里
夺命蜂巢
然后
他们
当我运行所有这些时,不知何故,输出仍然包含非索引字列表中的单词:
[(“条款”,911)、(“欧洲”,586)、(“欧洲”,586)、(“理事会”,569)、(“欧盟”,530)、(“成员”,377)、(“国家”,282)、(“议会”,244)、(“委员会”,230)、(“依据”,217)、(“条约”,187)、(“in”,174)、(“程序”,161)、(“政策”,137)、(“合作”,136)、(“立法”,136)、(“代理”,130)、(“法案”,125)、(“修订”,125),(“州”,123),(“规定”,115),(“安全”,113),(“措施”,111),(“通过”,109),(“共同”,108)]
你可能会说,我刚开始学习python,所以我非常感谢你的简单解释!:)
可在此处找到使用的文件:
编辑:为sourcefile、stopwordfile和输出添加了示例。
提供源文件
python3txt删除高频低频词_清理.txt并计算最常出现的单词相关推荐
- java项目删除多余jar包_清理java项目中多余的jar包
随着应用规模的逐渐增大,依赖的jar包数量也大幅增加,其中不乏多余的,用不到的 jar包,占用了大量的宝贵空间.通过loosejar这个工具,便可轻松找到"滥竽充数"的jar包了~ ...
- 中文停用词文档_使用Python中的NLTK和spaCy删除停用词与文本标准化
译者 | VK 来源 | Analytics Vidhya [磐创AI 导读]:本文介绍了如何使用Python中的NLTK和spaCy删除停用词与文本标准化,欢迎大家转发.留言.想要更多电子杂志的机器 ...
- python英文文本清理删除一段话_如何使用NLTK删除所有非英语字符和单词
我以前从没和nltk一起工作过.也可能有更好的解决办法. 在我的代码片段中,我只是执行以下操作:将需要检查名为frequencyList.txt的非英语/英语单词的文件读取到名为lines的变量. 然 ...
- python清洗数据去除停用词_关于regex:在Python中删除停用词的快捷方法
我正在尝试从文本字符串中删除停用词: 1 2 3from nltk.corpus import stopwords text = 'hello bye the the hi' text = ' '.j ...
- [20190130]删除tab$记录的恢复2.txt
[20190130]删除tab$记录的恢复2.txt --//前面链接写好了脚本,开始测试删除后的恢复.千万不要在生产系统做这样的测试!! --//参考链接:http://blog.itpub.net ...
- [20180614]删除bootstrap$记录无法启动2.txt
[20180614]删除bootstrap$记录无法启动2.txt --//前几天看链接http://www.xifenfei.com/2018/05/willfully-delete-bootstr ...
- 超鸿蒙是什么意思,帝垣的组词_拼音_意思_近反义词(造句)
下面为大家详细介绍帝垣的拼音_组词_造句_意思_反义词(近义词),内容主要包含垣的组词, 帝垣是什么意思, 帝垣的拼音_怎么读, 帝垣的造句_造句大全, 帝的组词, 开头是帝的词语_成语, 结尾是垣的 ...
- WordPress批量删除文章失效图片_批量删除文章404超链接教程
WordPress批量删除文章失效图片_批量删除文章404超链接教程 当你的WordPress网站运营了一段时间,比如几年,网站很可能就会存在不少失效链接,文章中404超链接.批量删除文章中失效图片, ...
- 针对于高频低频图像的理解
1首先什么是高频图像,什么是低频图像 低频图像就是灰度变化比较小的图像 高频图像就是灰度变化比较大的图像 所谓灰度变化比较小的图像就是,内容 所谓灰度变化比较大的图像就是,边缘和纹理, 边缘:灰度变化 ...
最新文章
- named 客户端无法解析_解析天联高级版客户端无法访问用友U8问题
- python电脑配置要求cpu-Python限制内存和CPU使用量的方法(Unix系统适用)
- 用java写游戏_用java写的扫雷游戏
- TreeSet集合排序方式一:自然排序Comparable
- 记一次fastjson转jackson的生产事故
- nginx有10个以上参数rewrite的处理
- 安卓学习笔记19:常用控件 - 单选按钮和复选框
- 渐变色彩艺术海报背景素材|感官刺激、个性突出
- JSP中include指令和include动作的区别
- python中unicode编码表_python中的unicode编码
- 分省份碳排放量数据(2000-2019年)
- excel表格选择下拉多选_Excel下拉多个选择或删除
- A00工具类学习之参考文献写法
- 华为路由器 环回互通实验(顺时针)
- 量化投资必备手册:史上超全量化交易平台汇总
- 康蒂尼药业再次冲刺港股:9个月营收4.4亿 龙磐创投是股东
- 经纬财富:乌海黄金白银暂缓跌势
- Java SE MyBatis框架(详解)
- StartAllBack v3.5.4.4550 Win11经典开始菜单增强工具
- 计组 | 算数移位及其移位后的空位添补规则