python去除文本停用词(jieba分词+哈工大停用词表)
停用词表
上github搜索中文停用词就有很多版本,百度、哈工大等。(自行下载,下面推荐一个,现在github windows平台应该要一些操作或fanqiang才能上,linux系统能直接上)
https://github.com/goto456/stopwords
代码
import jieba
import json# 读取停用词列表
def get_stopword_list(file):with open(file, 'r', encoding='utf-8') as f: # stopword_list = [word.strip('\n') for word in f.readlines()]return stopword_list# 分词 然后清除停用词语
def clean_stopword(str, stopword_list):result = ''word_list = jieba.lcut(str) # 分词后返回一个列表 jieba.cut() 返回的是一个迭代器for w in word_list:if w not in stopword_list:result += wreturn resultif __name__ == '__main__':stopword_file = '../Dataset/stopwords-master/hit_stopwords.txt'process_file = '../Dataset/stopwords-master/LCSTS_test.json'stopword_list = get_stopword_list(stopword_file) # 获得停用词列表sents = json.load(open(process_file)) # 打开要处理的文件"""由于我的文件式json格式,里面每一行是一个字典{'src':****, 'tgt':*****}现实场景适当改动读取方式"""for s in sents:print(s['src'])print(clean_stopword(s['src'], stopword_list))
欢迎学习指教。
python去除文本停用词(jieba分词+哈工大停用词表)相关推荐
- 中文停用词库分享-哈工大停用词表、百度停用词表等
github资源
- ik分词和jieba分词哪个好_Python 中文 文本分析 实战:jieba分词+自定义词典补充+停用词词库补充+词频统计...
最近项目需要,实现文本的词频分析,折腾了几天才完成任务,有点成就感,最后整理总结一下这部分的内容,希望更多同僚受益. 一.使用前准备 环境:Python3.6 安装结巴:pip install ji ...
- Python借助jieba包对中文txt文档去停用词、分词
Python借助jieba包对中文txt文档去停用词.分词` import jieba# 创建停用词list def stopwordslist(filepath):stopwords = [line ...
- [Python3] 简单的jieba分词以及停用词去除
本文主要为[爬取百度搜索内容页广告均数]提供关键词文件,主要做输入文件的分词功能,并写入key_word.txt文件,以供下一模块使用. https://blog.csdn.net/qq_367913 ...
- 贪心NLP——jieba分词、停用词过滤、词的标准化,词袋模型
基于结巴(jieba)的分词. Jieba是最常用的中文分词工具 import jiebaset_list=jieba.cut('中南财经政法大学在茶山刘',cut_all=False) print( ...
- python语言入门r_小结:jieba分词的Python与R语言基础用法介绍
当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放 人们说话不是一个词一个词崩出来的,文章也就由句子组成.要想让机器识别美文,体会中华名族汉语的博大精深,不是不可能.但是,首先需要将其转化成其 ...
- Python制作炫酷的词云图(包含停用词、词频统计)!!!
Python制作词云图(包含停用词.词频统计) 话不多说,直接先上词云效果图!!! 想根据自己喜欢的颜色.字体.以及背景蒙版制作词云图吗?别急,往下看! 分词以及词频统计的代码片段: (包含停用词库: ...
- 2.3.NLTK工具包安装、分词、Text对象、停用词、过滤掉停用词、词性标注、分块、命名实体识别、数据清洗实例、参考文章
2.3.NLTK工具包安装 2.3.1.分词 2.3.2.Text对象 2.3.3.停用词 2.3.4.过滤掉停用词 2.3.5.词性标注 2.3.6.分块 2.3.7.命名实体识别 2.3.8.数据 ...
- python可视化文本分析(2)—snownlp jieba分析QQ群成员发言情况
公众号文章链接 第二个情感分析,主要通过python实现qq群消息分析,分析群成员发言总次数,群成员情绪对比,单个群成员的发言词云状况以及单个同学的发言情感走势. 用到一下库: re正则,matplo ...
最新文章
- linux apache 文件服务器,Linux下搭建Apache服务器全过程详解
- window.showModalDialog用法介绍
- 有趣的css图形实现
- [MySQL Reference Manual] 24 MySQL sys框架
- 架构设计 之 你为啥只垂直切子系统没分层呢?
- 《编码规范和测试方法——C/C++版》作业 ·007——C++引入MySQL给C的API并简单封装
- 可视化报表Superser
- [转载]CMMI之功能点估算法:EI、EQ和EO
- linux上scrapy项目的创建,Python网络爬虫4 ---- Linux下编写最简单的scrapy网络爬虫项目...
- Introduction to Computer Networking学习笔记(十一):flow control 滑动窗口详解
- 视觉开发应用1- 机器视觉基本知识之工业相机
- 手机浏览器播放mp3等音乐(chrome特殊)
- 上海内推 | 微软亚洲研究院上海人工智能组招聘深度学习研究实习生
- 兄弟连学python(06)装饰器:对类或者函数进行功能的扩展
- keil uvision5 cannot write project file 和 cannot read project file 解决建议
- 传奇开外网需要映射那几个端口
- 【Linux/Unix】Linux中的seq命令
- 东北黑吉辽有影响力的调查研究咨询公司
- [前端学习笔记1] 前端学习路线
- NodeJs核心技术-张晓飞-专题视频课程