中文分词后去除停用词

当我们利用jieba进行中文分词时，主要是句子中出现的词语都会被划分，而有些词语是没有实际意思的，对于后续的关键词提取就会加大工作量，并且可能提取的关键词是无效的。所以在分词处理以后，我们便会引入停用词去优化分词的结果。
对于停用词，我们可以自己手动添加到一个txt文件中，然后在需要时导入文件，也可以利用已经整理好的停用词表，这样就会方便很多。当然，在已有的停用词表基础上，如果我们还有一些词语不需要，也可以自己完善停用词表。
下载停用词表请戳：stop_words.txt，提取码：3si7

看实例：

import jiebadef stopwordslist(filepath):   # 定义函数创建停用词列表stopword = [line.strip() for line in open(filepath, 'r').readlines()]    #以行的形式读取停用词表，同时转换为列表return stopworddef cutsentences(sentences):     #定义函数实现分词print('原句子为：'+ sentences)cutsentence = jieba.lcut(sentences.strip())     #精确模式print ('\n'+'分词后：'+ "/ ".join(cutsentence)) stopwords = stopwordslist(filepath)     # 这里加载停用词的路径lastsentences = ''for word in cutsentence:     #for循环遍历分词后的每个词语if word not in stopwords:     #判断分词后的词语是否在停用词表内if word != '\t':lastsentences += wordlastsentences += "/ "print('\n'+'去除停用词后：'+ lastsentences) filepath= 'D:/大学工作所做文档/学习资料/毕业设计学习准备/资料参考/stop_words.txt'
sentences = '万里长城是中国古代劳动人民血汗的结晶和中国古代文化的象征和中华民族的骄傲'
stopwordslist(filepath)
cutsentences(sentences)

运行结果：

原句子为：万里长城是中国古代劳动人民血汗的结晶和中国古代文化的象征和中华民族的骄傲分词后：万里长城/ 是/ 中国/ 古代/ 劳动/ 人民/ 血汗/ 的/ 结晶/ 和/ 中国/ 古代/ 文化/ 的/ 象征/ 和/ 中华民族/ 的/ 骄傲去除停用词后：万里长城/ 中国/ 古代/ 劳动/ 血汗/ 结晶/ 中国/ 古代/ 文化/ 象征/ 中华民族/ 骄傲/

希望可以帮助到你，谢谢你的阅读！

中文分词后去除停用词相关推荐

中文分词与去除停用词
jieba分词的三种模式精确模式:把文本精确的切分开,不存在冗余单词. 全模式:把文本中所有可能的词语都扫描出来,有冗余. 搜索引擎模式:在精确模式基础上,对长词再次切分. jieba库的解析 ji ...
Python 中文分词并去除停用词
import jieba# 创建停用词list def stopwordslist(filepath):stopwords = [line.strip() for line in open(filep ...
中文文本处理总结（读取文本、文本预处理、分词、去除停用词）
中文文本处理总结(读取文本.文本预处理.分词.去除停用词) 针对前面学习的 Python读取文本内容.中文文本预处理.利用jieba对中文进行分词.中文分词后去除停用词.调整jieba分词结果,我们 ...
实践：jieba分词和pkuseg分词、去除停用词、加载预训练词向量
一:jieba分词和pkuseg分词原代码文件链接:https://pan.baidu.com/s/1J8kmTFk8lec5ubfwBaSnLg 提取码:e4nv 目录: 1:分词介绍: 目标: ...
java 对英文句子进行分词、去除停用词、提取词干
下面词干提取算法用到的jar包 lucene-analyzers-smartcn-7.6.0.jar (包含中英词干提取) 百度网盘链接:https://pan.baidu.com/s/15D ...
python文本分词及去除停用词
对于文本分词,此处使用的是python自带的jieba包进行,首先我们要先读取我们所需要分词的文章,然后使用jieba.cut进行分词,注意分词时要将这些段落归并成同一个字符串,然后输出的是一个列表. ...
实战笔记：利用pandas提升分词后过滤停用词的效率
前言:大家好,这里是Seon塞翁.最近工作中开发了一个需要对大批量文本进行分词及统计词频的工具,主要是在 jieba 分词.过滤停用词两个环节耗时.分词部分可以考虑采用 jieba-fast 库提升速 ...
IKAnalyzer进行中文分词和去停用词
最近学习主题模型pLSA.LDA,就想拿来试试中文.首先就是找文本进行切词.去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:(:(注意:这里尽量下载最新版本,我这里用的IK ...
（3.2）将分词和去停用词后的评论文本基于“环境、卫生、价格、服务”分类...
酒店评论情感分析系统(三)-- 将分词和去停用词后的评论文本基于"环境.卫生.价格.服务"分类思想: 将进行了中文分词和去停用词之后得到的词或短语按序存在一个数组(iniArra ...

中文分词后去除停用词

中文分词后去除停用词

中文分词后去除停用词相关推荐

最新文章

热门文章