一、概念

首先我们来看一下停用词的概念,然后来介绍使用nltk如何删除英文的停用词:

由于一些常用字或者词使用的频率相当的高,英语中比如a,the, he等,中文中比如:我、它、个等,每个页面几乎都包含了这些词汇,如果搜索引擎它们当关键字进行索引,那么所有的网站都会被索引,而且没有区分度,所以一般把这些词直接去掉,不可当做关键词。

二、使用nltk删除英文停用词

首先我import stopwords进来,代码如下:

from nltk.corpus import stopwords

words = stopwords.words('english')

print(words)

首先看看打印停用词的结果:

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', 'her', 'hers', 'herself', 'it', 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', 'too', 'very', 's', 't', 'can', 'will', 'just', 'don', 'should', 'now', 'd', 'll', 'm', 'o', 're', 've', 'y', 'ain', 'aren', 'couldn', 'didn', 'doesn', 'hadn', 'hasn', 'haven', 'isn', 'ma', 'mightn', 'mustn', 'needn', 'shan', 'shouldn', 'wasn', 'weren', 'won', 'wouldn']

当然在很多任务(比如对话任务中)中,停用词还包括下面这些符合和后缀:

['!', ',' ,'.' ,'?' ,'-s' ,'-ly' ,' ', 's']

使用下面代码,将他们加上去

for w in ['!',',','.','?','-s','-ly','','s']:

self.stopwords.add(w)

然后删除的用法就非常容易,假如我们的语料在word_list中,我们只需要写上下面的代码即可!

from nltk.corpus import stopwords

for w in ['!',',','.','?','-s','-ly','','s']:

self.stopwords.add(w)

filtered_words = [word for word in word_list if word not in stopwords.words('english')]

python去停用词用nltk_使用nltk删除英文停用词相关推荐

  1. python去停用词用nltk_【NLTK】安装和使用NLTK分词和去停词

    黄聪:Python+NLTK自然语言处理学习(一):环境搭建 http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html 安装NL ...

  2. 自然语言处理(英文停用词删除) Java程序

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 英文语料预处理 针对英语语料预处理时,我们经常要将其进行词干转化,然后去除停用词 ...

  3. 文本相似度计算 python去停用词_python专业方向 | 文本相似度计算

    欢迎关注我们的微信公众号"人工智能LeadAI"(ID:atleadai)步骤 1.分词.去停用词 2.词袋模型向量化文本 3.TF-IDF模型向量化文本 4.LSI模型向量化文本 ...

  4. python停用词表_多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序...

    文章简介与更新记录 如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,其中包括三个中文停用词词表,一个英文停用词词表和一个合并词表的.py文件2017/07/04 创建文章,上传文件 201 ...

  5. 多版本中文停用词词表 + 多版本英文停用词词表 + python词表合并程序

    文章目录 文章简介与更新记录 停用词 python合并中文停用词词表的代码 下载所有文件 文章简介与更新记录 如果你只想获取中文停用词此表,请直接到文章结尾下载项目文件,其中包括三个中文停用词词表,一 ...

  6. python--中文分词与词云制作--入门笔记(附停用词库及Mac字体资源)

    这里写自定义目录标题 一.中文分词基本说明 二.停用词库.自定义词典的使用 (一)停用词 (二)自定义词典 三.词云绘制 四.中文字体的使用说明 (一)Mac 字体使用说明 五.附件 (一)ttf字体 ...

  7. 【NLP】文本预处理:删除单词停用词

    作者 | Chetna Khanna 编译 | VK 来源 | Towards Data Science 我们很清楚这样一个事实:计算机可以很容易地处理数字. 然而,我们掌握的大部分信息都是以文本的形 ...

  8. python红楼梦绘制词云形状图_python数据挖掘实战笔记——文本挖掘(5):词云美化之绘制《红楼梦》词云图...

    词云图的美化就是把词云图的背景和颜色进行美化,以<红楼梦>词云图为例,如下所示: 首先绘制词云,跟之前的代码操作一样: import jieba import numpy import c ...

  9. 合肥python培训-在合肥学习Python去哪

    在合肥学习Python去哪 来源:合肥IT培训学院 发布时间:2020/1/16 10:07:41 合肥python培训学校费用,合肥python培训学校费用是多少?一般来说,Python培训大概需要 ...

最新文章

  1. Xcode 新项目删除 storyboard 文件
  2. mysql查询建表SQL语句
  3. 山东省第十届ACM浪潮杯补题
  4. servlet面试常考 (转载)
  5. python的继承用法_python中继承有什么用法?python继承的用法详解
  6. 私有GIT服务器的免密提交
  7. java 数组详解_java_day03:数组详解
  8. 【目录】数据结构与算法
  9. python车牌识别_python+opencv实现车牌识别
  10. 被众多车企“抛弃”、增长放缓,Mobileye值不值500亿美元?
  11. 信息化建设规划_中小型企业信息化建设规划方案
  12. oracle删库语句,oracle删除表语句是什么?_数据库
  13. php screw.so,php_screw
  14. 北京农村商业银行:应用质量掘金再造“探秘”之旅
  15. 【转自Testerhome】iOS 真机如何安装 WebDriverAgent
  16. 第一次在Vue项目中播放m3u8格式视频遇到的问题和解决方法
  17. 哪款蓝牙耳机吃鸡没延迟?游戏蓝牙耳机推荐
  18. AQI(空气质量指数)分析与预测(四)
  19. 【TP调试】android虚拟按键无振动效果
  20. C\C++中strcat()函数

热门文章

  1. 可以这样给DataGrid加个序号列。
  2. java打印调用堆栈的方式
  3. mysql不能创建innodb类型表_MYSQL have_innodb DISABLED无法创建innodb类型的表
  4. python单向链表和双向链表的图示代码说明
  5. 使用IntelliJ IDEA碰到的问题总结
  6. sum怎么用python_python sum()函数和.sum(axis=0)函数的使用
  7. Linux系统:软链接与硬链接的原理分析
  8. CRC16算法之三:CRC16-CCITT-MODBUS算法的java实现
  9. django中的admin组件之自定义组件的增删改查的完善
  10. Runtime消息动态解析与转发流程