停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言文本之前或之后会自动过滤掉某些没有具体意义的字或词,这些字或词即被称为停用词,比如英文单词“I”“the”或中文中的“啊”等。

  停用词的存在直接增加了文本的特征难度,提高了文本数据分析过程中的成本,如果直接用包含大量停用词的文本作为分析对象,则还有可能会导致数据分析的结果存在较大偏差,通常在处理过程中将它们从文本中删除,如图8-4所示。

  图8-4 删除停用词示例

  从图8-4中可以看出,即使从整个语句中删除了停用词,句子整体的意思并没有产生很大的影响。

  停用词都是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表,但是并没有一个明确的停用词表能够适用于所有的工具。对于中文的停用词,可以参考中文停用词库、哈工大停用词表、百度停用词列表,对于其他语言来说,可以参照https://www.ranks.nl/stopwords进行了解。

  删除停用词常用的方法有词表匹配法、词频阈值法和权重阈值法,NLTK库所采用的就是词表匹配法,它里面有一个标准的停用词列表,在使用之前要确保已经下载了stopwords语料库,并且用import语句导入stopwords模块,示例代码如下。

In [20]: from nltk.corpus import stopwords# 原始文本sentence='Python is a structured and powerful object-orientedprogramming language.'# 将英文语句按空格划分为多个单词words=nltk.word_tokenize(sentence)words
Out[20]: ['Python', 'is', 'a', 'structured', 'and', 'powerful', 'object-oriented', 'programming', 'language', '.']
In [22]: # 获取英文停用词列表stop_words=stopwords.words('english')# 定义一个空列表remain_words=[]# 如果发现单词不包含在停用词列表中,就保存在remain_words中for word in words:if word not in stop_words:remain_words.append(word)remain_words
Out[22]: ['Python', 'structured', 'powerful', 'object-oriented','programming', 'language', '.']

  通过比较删除前与删除后的结果可以发现,is、a、and这几个常见的停用词都被删除了。

文本数据分析:删除停用词相关推荐

  1. 中文停用词文档_使用Python中的NLTK和spaCy删除停用词与文本标准化

    译者 | VK 来源 | Analytics Vidhya [磐创AI 导读]:本文介绍了如何使用Python中的NLTK和spaCy删除停用词与文本标准化,欢迎大家转发.留言.想要更多电子杂志的机器 ...

  2. [转载] 使用Python中的NLTK和spaCy删除停用词与文本标准化

    参考链接: Python | 用NLTK进行词干分析 概述 了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术  探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化 ...

  3. 使用Python中的NLTK和spaCy删除停用词与文本标准化

    概述 了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术 探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化(stemming)和词形还原(lemmatizatio ...

  4. python清洗数据去除停用词_关于regex:在Python中删除停用词的快捷方法

    我正在尝试从文本字符串中删除停用词: 1 2 3from nltk.corpus import stopwords text = 'hello bye the the hi' text = ' '.j ...

  5. python清洗数据去除停用词_Python从pandas数据帧中删除停用词

    我想从我的专栏"tweets"中删除停用词.如何迭代每一行和每个项目? pos_tweets = [('I love this car', 'positive'), ('This ...

  6. 代码!以备不时之需!中文文本预处理(停用词、空格分隔、按行分类)

    # 显示处理流程 import logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', leve ...

  7. 英文文本导入去停用词

    对于大段大段的英文txt文本,可以用open指令打开,手动建立stopwords字典,进行停用词处理.(附上通用词) with open('E:\\DATA\\520only abstract.txt ...

  8. 【NLP】文本预处理:删除单词停用词

    作者 | Chetna Khanna 编译 | VK 来源 | Towards Data Science 我们很清楚这样一个事实:计算机可以很容易地处理数字. 然而,我们掌握的大部分信息都是以文本的形 ...

  9. python处理停用词(stopwords)

    python处理停用词stopwords 停用词是什么 从一段文本中删除停用词 停用词是什么 将数据转换为计算机可以理解的内容的过程称为预处理.预处理的主要形式之一是过滤掉无用的数据.在自然语言处理中 ...

最新文章

  1. tensorflow inceptionv3参数笔记
  2. mysql 分组 字符串_MySQL查询以字符串字段中的数字字符对行进行分组?
  3. IPM analysis request DB table
  4. 【渝粤题库】广东开放大学 基础写作 形成性考核
  5. c语言 自动化编译环境,《C编程.开始C》3.编译基础
  6. 2019第三届中国通信业物联网大会邀请函
  7. 动物和计算机-自组织是悬空的钢丝
  8. bzoj 3517: 翻硬币
  9. 通俗易懂地理解并发和并行的区别
  10. ZYNQ FPGA程序固化流程
  11. SIR模型简单了解(Susceptible Infected Recovered Model)
  12. 如何分析加上SE壳的.net程序
  13. hdu 5064 Find Sequence
  14. FILCO连接WIN10出现PIN问题
  15. robots.txt文件信息泄漏
  16. wingide运行两个项目_Wing IDE使用教程:部分调试功能介绍
  17. 艺点动画-跟随原理讲解
  18. 用Java实现用户登录界面
  19. Xilinx的FPGA手册中关于如何Booting RFSoCsZynq
  20. python扫描器_Python扫描器-HTTP协议

热门文章

  1. matlab中模糊工具箱的使用
  2. Shiro安全框架(Shiro与SpringBoot整合开发)之图片验证码(五)
  3. 函数指针、函数返回指针、const指针、指向const指针,指向const的const指针。
  4. 计算机程序员求职信英语作文,英文程序员求职信
  5. Linux 目录结构及常用命令详细介绍
  6. Javaweb安全——Weblogic反序列化漏洞(一)
  7. 知三点求平面 || 点到平面的距离
  8. 日语输入中的促音怎么输入
  9. 深入理解RGB与CMYK色彩模式
  10. Linux TC 流量控制与排队规则 qdisc 树型结构详解(以HTB和RED为例)