[Python3] 简单的jieba分词以及停用词去除

本文主要为【爬取百度搜索内容页广告均数】提供关键词文件，主要做输入文件的分词功能，并写入key_word.txt文件，以供下一模块使用。

https://blog.csdn.net/qq_36791314/article/details/86724025

函数功能主要为调用简单的jiaba分词（stripdata函数）并进行停用词去除（stripword函数）
main函数为creat()，可修改为if __name__ ==’__main__’: 进行调用。

文件解释：

Rawdata 初始数据，即一个段落或文章
stop 停用词文件，用\n间隔
keyword 关键词表

import jieba#分词
def stripdata(Test):# jieba 默认启用了HMM（隐马尔科夫模型）进行中文分词seg_list = jieba.cut(Test,cut_all=True)  # 分词#获取字典，去除停用词line = "/".join(seg_list)word = stripword(line)#print(line)#列出关键字print("\n关键字：\n"+word)#停用词分析
def stripword(seg):#打开写入关键词的文件keyword = open('key_word.txt', 'w+', encoding='utf-8')print("去停用词：\n")wordlist = []#获取停用词表stop = open('stopword.txt', 'r+', encoding='utf-8')stopword = stop.read().split("\n")#遍历分词表for key in seg.split('/'):#print(key)#去除停用词，去除单字，去除重复词if not(key.strip() in stopword) and (len(key.strip()) > 1) and not(key.strip() in wordlist) :wordlist.append(key)print(key)keyword.write(key+"\n")#停用词去除ENDstop.close()keyword.close()return '/'.join(wordlist)def creat():Rawdata = open('raw.txt','r+',encoding='utf-8')text = Rawdata.read()#调用分词stripdata(text)#ENDRawdata.close()

[Python3] 简单的jieba分词以及停用词去除相关推荐

贪心NLP——jieba分词、停用词过滤、词的标准化，词袋模型
基于结巴(jieba)的分词. Jieba是最常用的中文分词工具 import jiebaset_list=jieba.cut('中南财经政法大学在茶山刘',cut_all=False) print( ...
自然语言处理：用paddle对人民日报语料进行分词，停用词，数据清洗和熵计算
自然语言处理:用paddle对人民日报语料进行分词,停用词,数据清洗和熵计算数据集提取: 公众号:YOLO的学习进阶日常然后回复:nlp1 安装本地飞桨本人 win10 python3.7 用的 ...
NLP_learning 中文基本任务与处理（分词、停用词、词性标注、语句依存分析、关键词抽取、命名实体识别）介绍、jieba工具库
文章目录 1.分词 2.停用词和N-gram 停用词 N-gram 3. 更多任务(词性标注.依赖分析.NER.关键词抽取) 词性标注句法依存分析命名实体识别关键词抽取 4. jieba工具库使 ...
用python对单一微博文档进行分词——jieba分词（加保留词和停用词）
当爬取完所需微博保存在一个csv文件中后,可用如下代码对其进行分词.保留所需词.去除停用词操作,并将分词结果放在新的文档中. 停用词和保留词网上都能搜到,我们也可以另外对停用词表进行编辑,也可以在保留 ...
python去除文本停用词（jieba分词+哈工大停用词表）
停用词表上github搜索中文停用词就有很多版本,百度.哈工大等.(自行下载,下面推荐一个,现在github windows平台应该要一些操作或fanqiang才能上,linux系统能直接上) ht ...
python结巴分词去掉停用词、标点符号、虚词_NLP自然语言处理入门-- 文本预处理Pre-processing...
引言自然语言处理NLP(nature language processing),顾名思义,就是使用计算机对语言文字进行处理的相关技术以及应用.在对文本做数据分析时,我们一大半的时间都会花在文本预处理 ...
结巴分词----去停用词
目前的课题需要用结巴分词处理一下数据,其中要去掉其中的停用词,以下是代码: import jieba import os import pymysqldef fun(filepath): # 遍历文件 ...
python中jieba分词，并输出词云（基础版）
环境与文件准备环境anaconda+pycharm,已经安装结巴库,wordcloud库,将0001-text.txt,stop_words.txt,dict.txt与新建py文件放到同一文件夹下. ...
Lucene的Smart CN实现分词、停用词、扩展词
Lucene 中提供了 SmartCN 为中文提供分词功能,实际应用中还会涉及到停用词.扩展词(特殊词.专业词)等,因此本文将聚焦在 SmartCN 而暂时不考虑其他中文分词类库. 1 简介 anal ...

[Python3] 简单的jieba分词以及停用词去除

[Python3] 简单的jieba分词以及停用词去除相关推荐

最新文章

热门文章