我需要

1)从停止字列表中清除一个.txt,我把它放在一个单独的.txt中。在

2)之后,我需要数一数25个最常用的单词。在

这是我第一部分的想法:#!/usr/bin/python

# -*- coding: iso-8859-15 -*-

import re

from collections import Counter

f=open("text_to_be_cleaned.txt")

txt=f.read()

with open("stopwords.txt") as f:

stopwords = f.readlines()

stopwords = [x.strip() for x in stopwords]

querywords = txt.split()

resultwords = [word for word in querywords if word.lower() not in stopwords]

cleantxt = ' '.join(resultwords)

对于第二部分,我使用以下代码:

^{pr2}$

要清理的源文件如下所示:

(二)

第二段第一句末尾应加上“并致高级代表”;第二句中,“每年举行一次辩论”改为“每年举行两次辩论”,并改为“每年举行两次辩论”,“包括共同安全和防卫政策”应插入末尾。在

非索引字表如下:

这是

他们

这个

然后

从那里

夺命蜂巢

然后

他们

当我运行所有这些时,不知何故,输出仍然包含非索引字列表中的单词:

[(“条款”,911)、(“欧洲”,586)、(“欧洲”,586)、(“理事会”,569)、(“欧盟”,530)、(“成员”,377)、(“国家”,282)、(“议会”,244)、(“委员会”,230)、(“依据”,217)、(“条约”,187)、(“in”,174)、(“程序”,161)、(“政策”,137)、(“合作”,136)、(“立法”,136)、(“代理”,130)、(“法案”,125)、(“修订”,125),(“州”,123),(“规定”,115),(“安全”,113),(“措施”,111),(“通过”,109),(“共同”,108)]

你可能会说,我刚开始学习python,所以我非常感谢你的简单解释!:)

可在此处找到使用的文件:

编辑:为sourcefile、stopwordfile和输出添加了示例。

提供源文件

python3txt删除高频低频词_清理.txt并计算最常出现的单词相关推荐

  1. java项目删除多余jar包_清理java项目中多余的jar包

    随着应用规模的逐渐增大,依赖的jar包数量也大幅增加,其中不乏多余的,用不到的 jar包,占用了大量的宝贵空间.通过loosejar这个工具,便可轻松找到"滥竽充数"的jar包了~ ...

  2. 中文停用词文档_使用Python中的NLTK和spaCy删除停用词与文本标准化

    译者 | VK 来源 | Analytics Vidhya [磐创AI 导读]:本文介绍了如何使用Python中的NLTK和spaCy删除停用词与文本标准化,欢迎大家转发.留言.想要更多电子杂志的机器 ...

  3. python英文文本清理删除一段话_如何使用NLTK删除所有非英语字符和单词

    我以前从没和nltk一起工作过.也可能有更好的解决办法. 在我的代码片段中,我只是执行以下操作:将需要检查名为frequencyList.txt的非英语/英语单词的文件读取到名为lines的变量. 然 ...

  4. python清洗数据去除停用词_关于regex:在Python中删除停用词的快捷方法

    我正在尝试从文本字符串中删除停用词: 1 2 3from nltk.corpus import stopwords text = 'hello bye the the hi' text = ' '.j ...

  5. [20190130]删除tab$记录的恢复2.txt

    [20190130]删除tab$记录的恢复2.txt --//前面链接写好了脚本,开始测试删除后的恢复.千万不要在生产系统做这样的测试!! --//参考链接:http://blog.itpub.net ...

  6. [20180614]删除bootstrap$记录无法启动2.txt

    [20180614]删除bootstrap$记录无法启动2.txt --//前几天看链接http://www.xifenfei.com/2018/05/willfully-delete-bootstr ...

  7. 超鸿蒙是什么意思,帝垣的组词_拼音_意思_近反义词(造句)

    下面为大家详细介绍帝垣的拼音_组词_造句_意思_反义词(近义词),内容主要包含垣的组词, 帝垣是什么意思, 帝垣的拼音_怎么读, 帝垣的造句_造句大全, 帝的组词, 开头是帝的词语_成语, 结尾是垣的 ...

  8. WordPress批量删除文章失效图片_批量删除文章404超链接教程

    WordPress批量删除文章失效图片_批量删除文章404超链接教程 当你的WordPress网站运营了一段时间,比如几年,网站很可能就会存在不少失效链接,文章中404超链接.批量删除文章中失效图片, ...

  9. 针对于高频低频图像的理解

    1首先什么是高频图像,什么是低频图像 低频图像就是灰度变化比较小的图像 高频图像就是灰度变化比较大的图像 所谓灰度变化比较小的图像就是,内容 所谓灰度变化比较大的图像就是,边缘和纹理, 边缘:灰度变化 ...

最新文章

  1. named 客户端无法解析_解析天联高级版客户端无法访问用友U8问题
  2. python电脑配置要求cpu-Python限制内存和CPU使用量的方法(Unix系统适用)
  3. 用java写游戏_用java写的扫雷游戏
  4. TreeSet集合排序方式一:自然排序Comparable
  5. 记一次fastjson转jackson的生产事故
  6. nginx有10个以上参数rewrite的处理
  7. 安卓学习笔记19:常用控件 - 单选按钮和复选框
  8. 渐变色彩艺术海报背景素材|感官刺激、个性突出
  9. JSP中include指令和include动作的区别
  10. python中unicode编码表_python中的unicode编码
  11. 分省份碳排放量数据(2000-2019年)
  12. excel表格选择下拉多选_Excel下拉多个选择或删除
  13. A00工具类学习之参考文献写法
  14. 华为路由器 环回互通实验(顺时针)
  15. 量化投资必备手册:史上超全量化交易平台汇总
  16. 康蒂尼药业再次冲刺港股:9个月营收4.4亿 龙磐创投是股东
  17. 经纬财富:乌海黄金白银暂缓跌势
  18. Java SE MyBatis框架(详解)
  19. StartAllBack v3.5.4.4550 Win11经典开始菜单增强工具
  20. 计组 | 算数移位及其移位后的空位添补规则

热门文章

  1. 中望龙腾后端开发工程师23届7-28笔试记录
  2. 使用udig配置数据样式(二)——udig加载数据
  3. 暨南大学计算机复试线2019,2019年暨南大学考研复试分数线及复试安排
  4. spring的Bean
  5. 1分钟解决universal link微信校验不通过
  6. excel里输入分数
  7. 如何办理进出口退税的手续?
  8. Android源码开发常用命令
  9. Linux 终端设备的总体简述
  10. R小型隔离变压器 小身板大能量