中文分词后去除停用词

 当我们利用jieba进行中文分词时,主要是句子中出现的词语都会被划分,而有些词语是没有实际意思的,对于后续的关键词提取就会加大工作量,并且可能提取的关键词是无效的。所以在分词处理以后,我们便会引入停用词去优化分词的结果。
 对于停用词,我们可以自己手动添加到一个txt文件中,然后在需要时导入文件,也可以利用已经整理好的停用词表,这样就会方便很多。当然,在已有的停用词表基础上,如果我们还有一些词语不需要,也可以自己完善停用词表。
 下载停用词表请戳:stop_words.txt,提取码:3si7

看实例:

import jiebadef stopwordslist(filepath):   # 定义函数创建停用词列表stopword = [line.strip() for line in open(filepath, 'r').readlines()]    #以行的形式读取停用词表,同时转换为列表return stopworddef cutsentences(sentences):     #定义函数实现分词print('原句子为:'+ sentences)cutsentence = jieba.lcut(sentences.strip())     #精确模式print ('\n'+'分词后:'+ "/ ".join(cutsentence)) stopwords = stopwordslist(filepath)     # 这里加载停用词的路径lastsentences = ''for word in cutsentence:     #for循环遍历分词后的每个词语if word not in stopwords:     #判断分词后的词语是否在停用词表内if word != '\t':lastsentences += wordlastsentences += "/ "print('\n'+'去除停用词后:'+ lastsentences) filepath= 'D:/大学工作所做文档/学习资料/毕业设计学习准备/资料参考/stop_words.txt'
sentences = '万里长城是中国古代劳动人民血汗的结晶和中国古代文化的象征和中华民族的骄傲'
stopwordslist(filepath)
cutsentences(sentences)

运行结果:

原句子为:万里长城是中国古代劳动人民血汗的结晶和中国古代文化的象征和中华民族的骄傲分词后:万里长城/ 是/ 中国/ 古代/ 劳动/ 人民/ 血汗/ 的/ 结晶/ 和/ 中国/ 古代/ 文化/ 的/ 象征/ 和/ 中华民族/ 的/ 骄傲去除停用词后:万里长城/ 中国/ 古代/ 劳动/ 血汗/ 结晶/ 中国/ 古代/ 文化/ 象征/ 中华民族/ 骄傲/

希望可以帮助到你,谢谢你的阅读!

中文分词后去除停用词相关推荐

  1. 中文分词与去除停用词

    jieba分词的三种模式 精确模式:把文本精确的切分开,不存在冗余单词. 全模式:把文本中所有可能的词语都扫描出来,有冗余. 搜索引擎模式:在精确模式基础上,对长词再次切分. jieba库的解析 ji ...

  2. Python 中文分词并去除停用词

    import jieba# 创建停用词list def stopwordslist(filepath):stopwords = [line.strip() for line in open(filep ...

  3. 中文文本处理总结(读取文本、文本预处理、分词、去除停用词)

    中文文本处理总结(读取文本.文本预处理.分词.去除停用词)  针对前面学习的 Python读取文本内容.中文文本预处理.利用jieba对中文进行分词.中文分词后去除停用词.调整jieba分词结果,我们 ...

  4. 实践:jieba分词和pkuseg分词、去除停用词、加载预训练词向量

    一:jieba分词和pkuseg分词 原代码文件 链接:https://pan.baidu.com/s/1J8kmTFk8lec5ubfwBaSnLg 提取码:e4nv 目录: 1:分词介绍: 目标: ...

  5. java 对英文句子进行 分词、去除停用词、提取词干

    下面 词干提取算法 用到的jar包 lucene-analyzers-smartcn-7.6.0.jar (包含 中英 词干提取) 百度网盘链接:https://pan.baidu.com/s/15D ...

  6. python文本分词及去除停用词

    对于文本分词,此处使用的是python自带的jieba包进行,首先我们要先读取我们所需要分词的文章,然后使用jieba.cut进行分词,注意分词时要将这些段落归并成同一个字符串,然后输出的是一个列表. ...

  7. 实战笔记:利用pandas提升分词后过滤停用词的效率

    前言:大家好,这里是Seon塞翁.最近工作中开发了一个需要对大批量文本进行分词及统计词频的工具,主要是在 jieba 分词.过滤停用词两个环节耗时.分词部分可以考虑采用 jieba-fast 库提升速 ...

  8. IKAnalyzer进行中文分词和去停用词

    最近学习主题模型pLSA.LDA,就想拿来试试中文.首先就是找文本进行切词.去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:(:(注意:这里尽量下载最新版本,我这里用的IK ...

  9. (3.2)将分词和去停用词后的评论文本基于“环境、卫生、价格、服务”分类...

    酒店评论情感分析系统(三)-- 将分词和去停用词后的评论文本基于"环境.卫生.价格.服务"分类 思想: 将进行了中文分词和去停用词之后得到的词或短语按序存在一个数组(iniArra ...

最新文章

  1. tensorflow.unstack() 与 tensorflow.stack()
  2. spring中控制器和服务层校验的实现原理
  3. idea2019中文版
  4. C++中函数调用操作符的重载
  5. Android-JSNative交互的几种可行性方案H5白屏问题解决方式
  6. mysql 只读账号_MySql主从复制,从原理到实践!
  7. 软考网络工程师--计算机硬件基础
  8. java xml获取属性值_java – 如何获取具体属性值的特定XML元素?
  9. java 生成无重复 随机数
  10. linux yum 安装widget,CentOS 7安装Qt5.12.1过程
  11. Apache的详细配置
  12. [脚本编程] 过云盾、D盾各种盾shell
  13. GDUFE ACM-1030
  14. 论通过测试与失败测试
  15. Clearing orphaned inode
  16. Lady General Hua Mu-lan花木兰剧本
  17. 什么是单例模式,单例模式的作用,单例模式的用法 一站式解决单例模式
  18. 起来!不愿做奴隶的“张江男”
  19. 小黄豆CRM v1.17版本发布
  20. 生物网络中基于节点相似度的链路预测图卷积

热门文章

  1. 回归方法(一):用线性回归探究生育率
  2. C++ 入门基础 取余数的应用价值
  3. 【ybt高效进阶4-4-3】【luogu P4513】公园遛狗 / 小白逛公园
  4. IP地址绕过 . 拦截
  5. 每晚夜里自我独行,随处荡,多冰冷,以往为了自我挣扎
  6. 4G DTU和4G工业路由器有哪些区别?
  7. 【neo4j】去除重复节点
  8. 编程基础——鱼龙混杂来两波
  9. 超级爆笑:2008高考各省零分作文大全
  10. python scipy.optimize 非线性规划 求解局部最优和全局最优