一 过滤文本

去除停用词典和错词检错都可以用词典的形式完成,以停用词为例,我使用的应该是知网提供的中文停用词典。测试的数据集是小学生数学题。

print(text)  # 打印未去除停用词前版本with open(r"C:\Users\BF\Desktop\NLTK\stopwords.txt","r",encoding='utf-8') as stopfile:  # 读取停用词,用utf-8的编码格式txt = stopfile.readlines()  # 一次性将所有的词按行读进来stopword = set(word.strip('\n') for word in txt)  # 去除每个词后的换行符放入tuple中removetext = [word for word in text if word not in stopword]  # 去除停用词
print(removetext)

停用词的下载链接

https://pan.baidu.com/s/1aGoVyl-NkBXwQ9nEbvisyQ

当然如果你自己的中文的错别字词典可以用同样的方式使用它,这里我用的是书本上英文文本的例子,找出文本中罕见的或者拼写错误的词汇表。这里有一个小技巧,如果你比较的是两个元祖,可以用自带的方法求两个元祖的交集,差集,并集。


def unusual_words(text):text_vocab = set(w.lower() for w in text if w.isalpha())  # 读取带处理的文本english_vocab = set(w.lower() for w in nltk.corpus.words.words())  # 读取nltk自带的过滤文本unusual = text_vocab.difference(english_vocab)return unusualunusual_words(nltk.corpus.nps_chat.words())


二 过滤文本

发音词典,是为了语音合成器而设计的。中文的发音词典我也没找到,所以这章不介绍(可以用来找押韵词,对写歌的人估计很有帮助)


Python自然语言处理—停用词词典相关推荐

  1. jieba分词三种分词模式、用户自定义词典、停用词词典的使用

    目录 三种分词模式 自定义词典使用 停用词词典的使用 补充知识 1.中文语料库: 2.中文分词技术 2.1 规则分词 2.2 统计分词 三种分词模式 精确模式:试图将句子最精确地切分开,适合文本分析. ...

  2. python清洗数据去除停用词_关于regex:在Python中删除停用词的快捷方法

    我正在尝试从文本字符串中删除停用词: 1 2 3from nltk.corpus import stopwords text = 'hello bye the the hi' text = ' '.j ...

  3. IKAnalyzer使用停用词词典进行分词

    转载自:https://www.cnblogs.com/yxwkf/p/5224231.html @Test // 測试分词的效果,以及停用词典是否起作用 public void test() thr ...

  4. python删除中文停用词_python词云 wordcloud+jieba生成中文词云图

    简介 Python+jieba+wordcloud+txt+gif生成动态中文词云 本文基于爬虫爬取某微信号三个月的文章为例,展示了生成中文词云的完整过程.本文需要的两个核心Python类库: jie ...

  5. python去除文本停用词(jieba分词+哈工大停用词表)

    停用词表 上github搜索中文停用词就有很多版本,百度.哈工大等.(自行下载,下面推荐一个,现在github windows平台应该要一些操作或fanqiang才能上,linux系统能直接上) ht ...

  6. python去除中文停用词_删除停止词Python

    你不需要在用户定义的函数中构造所有的代码,我不确定这背后是否有原因,但问题非常简单,在阅读完你的datafrme之后,可以用实际上2行代码简洁地解决.在import pandas as pd from ...

  7. 中文停用词文档_使用Python中的NLTK和spaCy删除停用词与文本标准化

    译者 | VK 来源 | Analytics Vidhya [磐创AI 导读]:本文介绍了如何使用Python中的NLTK和spaCy删除停用词与文本标准化,欢迎大家转发.留言.想要更多电子杂志的机器 ...

  8. ik分词和jieba分词哪个好_Python 中文 文本分析 实战:jieba分词+自定义词典补充+停用词词库补充+词频统计...

    最近项目需要,实现文本的词频分析,折腾了几天才完成任务,有点成就感,最后整理总结一下这部分的内容,希望更多同僚受益. 一.使用前准备 环境:Python3.6 安装结巴:pip install ji ...

  9. [转载] 使用Python中的NLTK和spaCy删除停用词与文本标准化

    参考链接: Python | 用NLTK进行词干分析 概述 了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术  探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化 ...

  10. 使用Python中的NLTK和spaCy删除停用词与文本标准化

    概述 了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术 探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化(stemming)和词形还原(lemmatizatio ...

最新文章

  1. firefox的plugin-container.exe进程如何关闭?
  2. 「追根溯源」Ruby数组的uniq方法
  3. 人才短缺是数据中心运营商面临的新问题
  4. 学会对mysql的增删改查_Go实现对MySQL的增删改查
  5. Debug Tensorflow: Expected these arguments to match one of the following 4 option(s):
  6. 机器学习物语(3):回归问题
  7. colab从CPU切换到GPU以及配置查看
  8. Java技术:Optional 相关用法介绍笔记
  9. Tomcat应用中post方式传参数长度限制
  10. 【ClickHouse 技术系列】- ClickHouse 中的嵌套数据结构
  11. 基于 Tracing 数据的拓扑关系生成原理
  12. 二本 计算机专业2017分数线,2017年二本心理学专业大学排名及分数线
  13. Swift @escaping @noescape
  14. 业务监控系统如何做,一起来看看如何使用Statsd+Graphite+Grafana搭建业务监控系统
  15. (03)Verilog HDL模块例化
  16. 【totti】一道weblogic认证考题所想到的
  17. java 改像素不改尺寸_如何不改变分辨率的情况下缩小尺寸PNG图片
  18. 《算法新解》读记(一)
  19. docker安装教程
  20. 汽车硬件测试基准介绍

热门文章

  1. 自学-Linux-老男孩Linux77期-day4
  2. Office 2019 正式版 下載
  3. 用engineercms建立项目管理平台
  4. yaw公式_3D 视角旋转矩阵 yaw pitch roll (pan, tilt)的数学计算
  5. ydisk安卓版本_Y Disk HD
  6. 5款Windows 界面原型设计工具
  7. 陈新河:软件定义世界,数据驱动未来
  8. 计算机一级是几寸的,14寸笔记本电脑分辨率多少合适?14寸笔记本电脑尺寸是多少?...
  9. 网络安全辅助工具:免费MD5解密网站
  10. 1、ESP8266入门(AT模式)——调试连接,使用USB-TTL