我以前从没和nltk一起工作过。也可能有更好的解决办法。

在我的代码片段中,我只是执行以下操作:将需要检查名为frequencyList.txt的非英语/英语单词的文件读取到名为lines的变量。

然后我打开一个名为eng_words_only.txt的新文件。此文件将只包含英文单词。最初此文件将为空,稍后执行脚本后,此文件将包含frequencyList.txt中存在的所有英语单词

现在对于frequencyList.txt中的每个单词,我检查它是否也存在于wordnet中。

如果这个词存在,那么我将这个词写入eng_words_only.txt文件,否则我什么也不做。请看我使用wordnet只是为了演示。它不包含所有的英语单词!

代码:from nltk.corpus import wordnet

fList = open("frequencyList.txt","r")#Read the file

lines = fList.readlines()

eWords = open("eng_words_only.txt", "a")#Open file for writing

for w in lines:

if not wordnet.synsets(w):#Comparing if word is non-English

print 'not '+w

else:#If word is an English word

print 'yes '+w

eWords.write(w)#Write to file

eWords.close()#Close the file

测试:我首先创建了一个名为frequencyList.txt的文件,其内容如下:cat

meoooow

mouse

执行代码段后,您将在控制台中看到以下输出:not cat

not meoooow

yes mouse

然后将创建一个文件eng_words_only.txt,其中只包含本应属于英语的单词。eng_words_only.txt将只包含mouse个单词。您可能注意到cat是一个英语单词,但它仍然不在eng_words_only.txt文件中。这就是为什么你应该使用一个好的源代码而不是wordnet。

请注意:python脚本文件和frequencyList.txt应该在同一目录中。此外,您可以使用任何要检查/调查的文件,而不是frequencyList.txt。在这种情况下,也不要忘记更改代码段中的文件名。

第二个解决方案:虽然您没有要求,但仍然有其他方法来做这个英语单词测试。

这里是代码:这里wordlist-eng.txt是包含英语单词的文件。你必须保持

wordlist-eng.txt、frequencyList.txt和同一目录中的python脚本。with open("wordlist-eng.txt") as word_file:

english_words = set(word.strip().lower() for word in word_file)

fList = open("frequencyList.txt","r")

lines = fList.readlines()

fList.close()

eWords = open("eng_words_only.txt", "a")

for w in lines:

if w.strip().lower() in english_words:

eWords.write(w)

else: pass

eWords.close()

执行脚本后,eng_words_only.txt将包含frequencyList.txt文件中存在的所有英语单词。

我希望这能有帮助。

python英文文本清理删除一段话_如何使用NLTK删除所有非英语字符和单词相关推荐

  1. python 删除一段话中某一个字符串开始之后的所有字符串

    python要删除一段字符串之后的所有字符串,可以使用partition函数. 比如: p_example = "尊敬的领导,你们好.在开发的s公司历时两年直到工程完毕至今,扔拖欠我们18万 ...

  2. python英文文本分析和提取_英文文本挖掘预处理流程总结

    在中文文本挖掘预处理流程总结中,我们总结了中文文本挖掘的预处理流程,这里我们再对英文文本挖掘的预处理流程做一个总结. 1. 英文文本挖掘预处理特点 英文文本的预处理方法和中文的有部分区别.首先,英文文 ...

  3. python英文文本情感分析_舆情信息浩如烟海?看看如何用Python进行英文文本的情感分析...

    市场每天都在生成海量的舆情信息,这些信息可以帮助我们识别市场情绪的转变.如果只是人工地去跟踪大量的舆论和研报显然缺乏效率.我们可以试试让机器来完成这个工作. 数据科学在数值领域中很常见,但这个不断壮大 ...

  4. markdown python整段话_(7)python少儿编程之基础语法(二)

    五.缩进 程序是有层次关系的 比如我们判断一个结果为是的时候要干什么 而干什么这个内容就要写在判断语句下 而python 约定4个空格缩进 为一个层次关系 我先写一个简单的语句 看不懂 没关系 理解这 ...

  5. python 注释一段话_干货!Python入门基础知识点总结

    或看好Python的广阔前景,或看中Python的语法简洁,越来越多零基础的人选择学Python.但是Python基础知识有哪些呢?且看我的分析. Python部分基础知识点汇总 数据类型:编程中操作 ...

  6. python英文文本词频统计_python实现简单的英文词频统计

    1 __author__ = 'Oscar_Yang' 2 #-*- coding= utf-8 -*- 3 #copyRight by OSCAR 4 """ 5 本脚 ...

  7. Python 英文文本字母跳转概率统计

    # 英文文本字母跳转概率统计.py # 文本示例:hemlet.txt import csv def getText():txt = open("hamlet.txt"," ...

  8. python 英文文本中的关键词提取

    python 英文关键词提取详细教程: https://opensourcelibs.com/lib/pytextrank # To install from PyPi: 慢就加镜像 -i pytho ...

  9. python英文文本词频统计代码_Python小程序:文本词频统计(英文+中文)

    在学习了组合数据类型和文件操作之后就可以做出下面的文本词频统计的小程序了: 1. 下面是英文文本的词频统计,统计了作者的一篇英文论文 #文本词频统计:英文文本 def gettext(): #从文件中 ...

最新文章

  1. 程序员敲诈老板,或面临 37 年监禁
  2. python计算小数点后有几位_数学提高小数除法竖式计算过程
  3. NSIS:超级轻量皮肤SkinH
  4. 小米机器人虚拟墙设置_扫地机器人虚拟墙应该怎么放置使用
  5. do while循环语句_Python 自学笔记 - while 循环语句
  6. DataGridView 单元格验证
  7. 12GB+512GB售价18999元起,华为发布Mate X2典藏版
  8. C#操作内存读写方法是什么呢?让我们来看看具体的实例实现:
  9. 公司发展历程企业项目进度大事记时间轴PPT模板
  10. 电子技术基础(三)_第2章放大电路原理__晶体三极管与场效应三极管
  11. 草履虫纳米机器人_草履虫大小的“微型机器人”或许能在人体组织中自由穿梭...
  12. js apply call bind
  13. Android 辅助功能服务AccessibilityService
  14. 【重大突破】——移动端——如何手机端屏蔽掉网站,【小技巧】戒应用AppDetox,一个可以屏蔽管理APP的自律软件,马克保存
  15. 中科创达旗下Rightware正式发布首个一体化汽车HMI工具链Kanzi One
  16. 2021年CFA最新学习资料!
  17. 日程表mysql_web编程之日程表模块(PHP+Mysql+Ajax)
  18. 富怡CAD计算机在哪,富怡CAD软件如何与富怡数字化仪进行连接
  19. 【知识图谱】py2neo基本操作(2021-11-11)
  20. 北航生医数值分析学习心得6

热门文章

  1. MapReduce常见算法_李孟_新浪博客
  2. 无线路由不要了,我有wifi共享精灵
  3. html+css实战152-定位-hot图标
  4. slither——区块链智能合约静态分析工具
  5. 解决:Linux版百度云客户端 BCloud网络错误 问题
  6. IV曲线追踪扫描仪 半导体图示仪 能测 IGBT. Mosfet. Diode. BJT......
  7. PlantUML绘制类图
  8. 【英语】大学英语CET考试,阅读部分1(阅读概述,SectionC仔细阅读140)
  9. 301重定向存在的问题
  10. 硅谷首富:拉里 埃里森 1