python去掉停用词_Python - 删除停用词
停用词是英语单词,对句子没有多大意义。在不牺牲句子含义的情况下,可以安全地忽略它们。例如,像,他,等等的单词已经在名为语料库的语料库中捕获了这些单词。我们首先将它下载到我们的python环境中。
import nltk
nltk.download('stopwords')
它将下载带有英语停用词的文件。
验证停用词
from nltk.corpus import stopwords
stopwords.words('english')
print stopwords.words() [620:680]
当我们运行上面的程序时,我们得到以下输出 -
[u'your', u'yours', u'yourself', u'yourselves', u'he', u'him', u'his', u'himself', u'she',
u"she's", u'her', u'hers', u'herself', u'it', u"it's", u'its', u'itself', u'they', u'them',
u'their', u'theirs', u'themselves', u'what', u'which', u'who', u'whom', u'this',
u'that', u"that'll", u'these', u'those', u'am', u'is', u'are', u'was', u'were', u'be',
u'been', u'being', u'have', u'has', u'had', u'having', u'do', u'does', u'did', u'doing',
u'a', u'an', u'the', u'and', u'but', u'if', u'or', u'because', u'as', u'until',
u'while', u'of', u'at']
除了英语之外,具有这些停用词的各种语言如下。
from nltk.corpus import stopwords
print stopwords.fileids()
当我们运行上面的程序时,我们得到以下输出 -
[u'arabic', u'azerbaijani', u'danish', u'dutch', u'english', u'finnish',
u'french', u'german', u'greek', u'hungarian', u'indonesian', u'italian',
u'kazakh', u'nepali', u'norwegian', u'portuguese', u'romanian', u'russian',
u'spanish', u'swedish', u'turkish']
例
我们使用下面的示例来说明如何从单词列表中删除停用词。
from nltk.corpus import stopwords
en_stops = set(stopwords.words('english'))
all_words = ['There', 'is', 'a', 'tree','near','the','river']
for word in all_words:
if word not in en_stops:
print(word)
当我们运行上面的程序时,我们得到以下输出 -
There
tree
near
river
python去掉停用词_Python - 删除停用词相关推荐
- 中文停用词文档_使用Python中的NLTK和spaCy删除停用词与文本标准化
译者 | VK 来源 | Analytics Vidhya [磐创AI 导读]:本文介绍了如何使用Python中的NLTK和spaCy删除停用词与文本标准化,欢迎大家转发.留言.想要更多电子杂志的机器 ...
- [转载] 使用Python中的NLTK和spaCy删除停用词与文本标准化
参考链接: Python | 用NLTK进行词干分析 概述 了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术 探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化 ...
- 使用Python中的NLTK和spaCy删除停用词与文本标准化
概述 了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术 探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化(stemming)和词形还原(lemmatizatio ...
- python判断是否为变位词_python实现对变位词的判断方法
Python实现对变位词的判断,供大家参考,具体内容如下 什么是变位词呢?即两个单词都是由相同的字母组成,而各自的字母顺序不同,譬如python和typhon,heart和earth. 变位词的判断 ...
- 浙大python判断两个字符串是否为变位词_Python实现对变位词的判断
Python实现对变位词的判断 什么是变位词呢?即两个单词都是由相同的字母组成,而各自的字母顺序不同,譬如python和typhon,heart和earth. 变位词的判断 既然我们知道了变位词的定义 ...
- python去掉字典重复项_Python字典操作的问题,要删除字典内部重复值item操作方法...
字典 z 如下 z = { 1: 'a', 2: 'a', 3: 'a', 4: 'b', 5: 'c', 6: 'c', 7: 'd' } 要求删除重复的 value 的 item,只保留一个,如何 ...
- python中delete怎么用_python删除np.deletePython基础教程05 - 缩进和选择
缩进 Python最具特色的是用缩进来标明成块的代码.我下面以if选择结构来举例.if后面跟随条件,如果条件成立,则执行归属于if的一个代码块. 先看C语言的表达方式(注意,这是C,不是Python! ...
- python列表元素交换位置_python删除列表元素5种方法,你会的是错误法还是最优解?...
删除列表元素很多同学想当然的认为不就是循环遍历加上if判断再del吗?真的有这么简单吗? 还是直接上代码看案例吧: import time# 删除下面列表中所有张姓元素,输出的结果应该是['李老大', ...
- python去掉人像白边_python 使用plt画图,去除图片四周的白边方法
用matplotlib.pyplot画的图,显示和保存的图片周围都会有白边,可以去掉.为了显示的更清楚,给图片加了红色的框 代码 "` import matplotlib.pyplot as ...
- python如何清空excel表格_python 删除excel表格重复行,数据预处理操作
使用python删除excel表格重复行. # 导入pandas包并重命名为pd import pandas as pd # 读取Excel中Sheet1中的数据 data = pd.DataFram ...
最新文章
- tf.nn.embedding_lookup()的用法
- streambuf ambiguous symbol的问题如何解决
- 跨域调用报表展现页面的flash打印方法
- awk打印第一个字母
- LA 2659 poj 3076 zoj 3122 Sudoku(精确覆盖 + DLX)
- MySQL中with rollup的用法
- Filecoin Gas基础费率大幅回升至2.78 nanoFIL
- 计算机网络课堂笔记3.29
- Latex初学者入门
- win10升级后ctrl+shift+f失效了(zend studio)问题解决
- 摆动定价机制连载系列之推出背景及工作原理介绍
- 没有光驱照样安装Win7!U盘装系统教程
- TCP/IP基础知识
- 计算机打印机无法扫描,打印机无法扫描 打印机无法扫描怎么办 4种原因及解决方法...
- SVN版本库修改URL路径或者IP地址
- 利用神经网络逼近sin(x)函数
- 领导让谈入职公司的感受
- 安装 VMWare及VMware下创建的虚拟PC机安装Linux操作系统
- 鲁宾逊微积分教材版权的“知识共享”授权方式
- PIPI1003: 最少钱币数c++
热门文章
- 手把手带你用idea搭建Java源码(JDK源码)阅读调试环境
- 浅蓝色学校网站模板_学校网站源码_适用高中,中学,小学学校网站建设
- 烧录工具Android Tool的使用
- WIFI无线网络技术详细分析
- 计算机二级vf相关 书籍,计算机等级考试二级VF笔试教材.doc
- [0 to 0.5]从零开始学习Android动画知识(上)
- python零基础怎么学英语最快_零基础如何快速成为Python高手
- Unity 之 自定义编辑器布局
- 2013Esri全球用户大会QA之ArcGIS Online(上)
- oa服务器维护,办公系统维护,维护oa系统的方法