停用词表

上github搜索中文停用词就有很多版本,百度、哈工大等。(自行下载,下面推荐一个,现在github windows平台应该要一些操作或fanqiang才能上,linux系统能直接上)

https://github.com/goto456/stopwords


代码

import jieba
import json# 读取停用词列表
def get_stopword_list(file):with open(file, 'r', encoding='utf-8') as f:    # stopword_list = [word.strip('\n') for word in f.readlines()]return stopword_list# 分词 然后清除停用词语
def clean_stopword(str, stopword_list):result = ''word_list = jieba.lcut(str)   # 分词后返回一个列表  jieba.cut()   返回的是一个迭代器for w in word_list:if w not in stopword_list:result += wreturn resultif __name__ == '__main__':stopword_file = '../Dataset/stopwords-master/hit_stopwords.txt'process_file = '../Dataset/stopwords-master/LCSTS_test.json'stopword_list = get_stopword_list(stopword_file)    # 获得停用词列表sents = json.load(open(process_file))  # 打开要处理的文件"""由于我的文件式json格式,里面每一行是一个字典{'src':****, 'tgt':*****}现实场景适当改动读取方式"""for s in sents:print(s['src'])print(clean_stopword(s['src'], stopword_list))

欢迎学习指教。

python去除文本停用词(jieba分词+哈工大停用词表)相关推荐

  1. 中文停用词库分享-哈工大停用词表、百度停用词表等

    github资源

  2. ik分词和jieba分词哪个好_Python 中文 文本分析 实战:jieba分词+自定义词典补充+停用词词库补充+词频统计...

    最近项目需要,实现文本的词频分析,折腾了几天才完成任务,有点成就感,最后整理总结一下这部分的内容,希望更多同僚受益. 一.使用前准备 环境:Python3.6 安装结巴:pip install ji ...

  3. Python借助jieba包对中文txt文档去停用词、分词

    Python借助jieba包对中文txt文档去停用词.分词` import jieba# 创建停用词list def stopwordslist(filepath):stopwords = [line ...

  4. [Python3] 简单的jieba分词以及停用词去除

    本文主要为[爬取百度搜索内容页广告均数]提供关键词文件,主要做输入文件的分词功能,并写入key_word.txt文件,以供下一模块使用. https://blog.csdn.net/qq_367913 ...

  5. 贪心NLP——jieba分词、停用词过滤、词的标准化,词袋模型

    基于结巴(jieba)的分词. Jieba是最常用的中文分词工具 import jiebaset_list=jieba.cut('中南财经政法大学在茶山刘',cut_all=False) print( ...

  6. python语言入门r_小结:jieba分词的Python与R语言基础用法介绍

    当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放 人们说话不是一个词一个词崩出来的,文章也就由句子组成.要想让机器识别美文,体会中华名族汉语的博大精深,不是不可能.但是,首先需要将其转化成其 ...

  7. Python制作炫酷的词云图(包含停用词、词频统计)!!!

    Python制作词云图(包含停用词.词频统计) 话不多说,直接先上词云效果图!!! 想根据自己喜欢的颜色.字体.以及背景蒙版制作词云图吗?别急,往下看! 分词以及词频统计的代码片段: (包含停用词库: ...

  8. 2.3.NLTK工具包安装、分词、Text对象、停用词、过滤掉停用词、词性标注、分块、命名实体识别、数据清洗实例、参考文章

    2.3.NLTK工具包安装 2.3.1.分词 2.3.2.Text对象 2.3.3.停用词 2.3.4.过滤掉停用词 2.3.5.词性标注 2.3.6.分块 2.3.7.命名实体识别 2.3.8.数据 ...

  9. python可视化文本分析(2)—snownlp jieba分析QQ群成员发言情况

    公众号文章链接 第二个情感分析,主要通过python实现qq群消息分析,分析群成员发言总次数,群成员情绪对比,单个群成员的发言词云状况以及单个同学的发言情感走势. 用到一下库: re正则,matplo ...

最新文章

  1. linux apache 文件服务器,Linux下搭建Apache服务器全过程详解
  2. window.showModalDialog用法介绍
  3. 有趣的css图形实现
  4. [MySQL Reference Manual] 24 MySQL sys框架
  5. 架构设计 之 你为啥只垂直切子系统没分层呢?
  6. 《编码规范和测试方法——C/C++版》作业 ·007——C++引入MySQL给C的API并简单封装
  7. 可视化报表Superser
  8. [转载]CMMI之功能点估算法:EI、EQ和EO
  9. linux上scrapy项目的创建,Python网络爬虫4 ---- Linux下编写最简单的scrapy网络爬虫项目...
  10. Introduction to Computer Networking学习笔记(十一):flow control 滑动窗口详解
  11. 视觉开发应用1- 机器视觉基本知识之工业相机
  12. 手机浏览器播放mp3等音乐(chrome特殊)
  13. 上海内推 | 微软亚洲研究院上海人工智能组招聘深度学习研究实习生
  14. 兄弟连学python(06)装饰器:对类或者函数进行功能的扩展
  15. keil uvision5 cannot write project file 和 cannot read project file 解决建议
  16. 传奇开外网需要映射那几个端口
  17. 【Linux/Unix】Linux中的seq命令
  18. 东北黑吉辽有影响力的调查研究咨询公司
  19. [前端学习笔记1] 前端学习路线
  20. NodeJs核心技术-张晓飞-专题视频课程

热门文章

  1. 一个快速启动软件 TStart
  2. mysql 中的左连接,右链接和内连接
  3. 外部系统连接SFDC,获取SFDC侧的数据
  4. 用户没有sudo权限解决方法
  5. Windows7 家庭基础版升级为旗舰版
  6. 使用opencv实现单反的慢速拍照功能
  7. 抖音、头条小程序开发与营运攻略,猛戳获取
  8. 高通+android笔记本电脑,不吹不黑!理性分析Redmi K40和RedmiBook Pro
  9. 重庆计算机职称有效期,2019年重庆市职称评定条件及标准新规定
  10. Spring boot jpa 多表关联查询