停用词是英语单词,对句子没有多大意义。在不牺牲句子含义的情况下,可以安全地忽略它们。例如,像,他,等等的单词已经在名为语料库的语料库中捕获了这些单词。我们首先将它下载到我们的python环境中。

import nltk

nltk.download('stopwords')

它将下载带有英语停用词的文件。

验证停用词

from nltk.corpus import stopwords

stopwords.words('english')

print stopwords.words() [620:680]

当我们运行上面的程序时,我们得到以下输出 -

[u'your', u'yours', u'yourself', u'yourselves', u'he', u'him', u'his', u'himself', u'she',

u"she's", u'her', u'hers', u'herself', u'it', u"it's", u'its', u'itself', u'they', u'them',

u'their', u'theirs', u'themselves', u'what', u'which', u'who', u'whom', u'this',

u'that', u"that'll", u'these', u'those', u'am', u'is', u'are', u'was', u'were', u'be',

u'been', u'being', u'have', u'has', u'had', u'having', u'do', u'does', u'did', u'doing',

u'a', u'an', u'the', u'and', u'but', u'if', u'or', u'because', u'as', u'until',

u'while', u'of', u'at']

除了英语之外,具有这些停用词的各种语言如下。

from nltk.corpus import stopwords

print stopwords.fileids()

当我们运行上面的程序时,我们得到以下输出 -

[u'arabic', u'azerbaijani', u'danish', u'dutch', u'english', u'finnish',

u'french', u'german', u'greek', u'hungarian', u'indonesian', u'italian',

u'kazakh', u'nepali', u'norwegian', u'portuguese', u'romanian', u'russian',

u'spanish', u'swedish', u'turkish']

我们使用下面的示例来说明如何从单词列表中删除停用词。

from nltk.corpus import stopwords

en_stops = set(stopwords.words('english'))

all_words = ['There', 'is', 'a', 'tree','near','the','river']

for word in all_words:

if word not in en_stops:

print(word)

当我们运行上面的程序时,我们得到以下输出 -

There

tree

near

river

python去掉停用词_Python - 删除停用词相关推荐

  1. 中文停用词文档_使用Python中的NLTK和spaCy删除停用词与文本标准化

    译者 | VK 来源 | Analytics Vidhya [磐创AI 导读]:本文介绍了如何使用Python中的NLTK和spaCy删除停用词与文本标准化,欢迎大家转发.留言.想要更多电子杂志的机器 ...

  2. [转载] 使用Python中的NLTK和spaCy删除停用词与文本标准化

    参考链接: Python | 用NLTK进行词干分析 概述 了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术  探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化 ...

  3. 使用Python中的NLTK和spaCy删除停用词与文本标准化

    概述 了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术 探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化(stemming)和词形还原(lemmatizatio ...

  4. python判断是否为变位词_python实现对变位词的判断方法

    Python实现对变位词的判断,供大家参考,具体内容如下 什么是变位词呢?即两个单词都是由相同的字母组成,而各自的字母顺序不同,譬如python和typhon,heart和earth. 变位词的判断 ...

  5. 浙大python判断两个字符串是否为变位词_Python实现对变位词的判断

    Python实现对变位词的判断 什么是变位词呢?即两个单词都是由相同的字母组成,而各自的字母顺序不同,譬如python和typhon,heart和earth. 变位词的判断 既然我们知道了变位词的定义 ...

  6. python去掉字典重复项_Python字典操作的问题,要删除字典内部重复值item操作方法...

    字典 z 如下 z = { 1: 'a', 2: 'a', 3: 'a', 4: 'b', 5: 'c', 6: 'c', 7: 'd' } 要求删除重复的 value 的 item,只保留一个,如何 ...

  7. python中delete怎么用_python删除np.deletePython基础教程05 - 缩进和选择

    缩进 Python最具特色的是用缩进来标明成块的代码.我下面以if选择结构来举例.if后面跟随条件,如果条件成立,则执行归属于if的一个代码块. 先看C语言的表达方式(注意,这是C,不是Python! ...

  8. python列表元素交换位置_python删除列表元素5种方法,你会的是错误法还是最优解?...

    删除列表元素很多同学想当然的认为不就是循环遍历加上if判断再del吗?真的有这么简单吗? 还是直接上代码看案例吧: import time# 删除下面列表中所有张姓元素,输出的结果应该是['李老大', ...

  9. python去掉人像白边_python 使用plt画图,去除图片四周的白边方法

    用matplotlib.pyplot画的图,显示和保存的图片周围都会有白边,可以去掉.为了显示的更清楚,给图片加了红色的框 代码 "` import matplotlib.pyplot as ...

  10. python如何清空excel表格_python 删除excel表格重复行,数据预处理操作

    使用python删除excel表格重复行. # 导入pandas包并重命名为pd import pandas as pd # 读取Excel中Sheet1中的数据 data = pd.DataFram ...

最新文章

  1. tf.nn.embedding_lookup()的用法
  2. streambuf ambiguous symbol的问题如何解决
  3. 跨域调用报表展现页面的flash打印方法
  4. awk打印第一个字母
  5. LA 2659 poj 3076 zoj 3122 Sudoku(精确覆盖 + DLX)
  6. MySQL中with rollup的用法
  7. Filecoin Gas基础费率大幅回升至2.78 nanoFIL
  8. 计算机网络课堂笔记3.29
  9. Latex初学者入门
  10. win10升级后ctrl+shift+f失效了(zend studio)问题解决
  11. 摆动定价机制连载系列之推出背景及工作原理介绍
  12. 没有光驱照样安装Win7!U盘装系统教程
  13. TCP/IP基础知识
  14. 计算机打印机无法扫描,打印机无法扫描 打印机无法扫描怎么办 4种原因及解决方法...
  15. SVN版本库修改URL路径或者IP地址
  16. 利用神经网络逼近sin(x)函数
  17. 领导让谈入职公司的感受
  18. 安装 VMWare及VMware下创建的虚拟PC机安装Linux操作系统
  19. 鲁宾逊微积分教材版权的“知识共享”授权方式
  20. PIPI1003: 最少钱币数c++

热门文章

  1. 手把手带你用idea搭建Java源码(JDK源码)阅读调试环境
  2. 浅蓝色学校网站模板_学校网站源码_适用高中,中学,小学学校网站建设
  3. 烧录工具Android Tool的使用
  4. WIFI无线网络技术详细分析
  5. 计算机二级vf相关 书籍,计算机等级考试二级VF笔试教材.doc
  6. [0 to 0.5]从零开始学习Android动画知识(上)
  7. python零基础怎么学英语最快_零基础如何快速成为Python高手
  8. Unity 之 自定义编辑器布局
  9. 2013Esri全球用户大会QA之ArcGIS Online(上)
  10. oa服务器维护,办公系统维护,维护oa系统的方法