[Python3] 简单的jieba分词以及停用词去除
本文主要为【爬取百度搜索内容页广告均数】提供关键词文件,主要做输入文件的分词功能,并写入key_word.txt文件,以供下一模块使用。
https://blog.csdn.net/qq_36791314/article/details/86724025
函数功能主要为调用简单的jiaba分词(stripdata函数)并进行停用词去除(stripword函数)
main函数为creat(),可修改为if __name__ ==’__main__’: 进行调用。
文件解释:
- Rawdata 初始数据,即一个段落或文章
- stop 停用词文件,用\n间隔
- keyword 关键词表
import jieba#分词
def stripdata(Test):# jieba 默认启用了HMM(隐马尔科夫模型)进行中文分词seg_list = jieba.cut(Test,cut_all=True) # 分词#获取字典,去除停用词line = "/".join(seg_list)word = stripword(line)#print(line)#列出关键字print("\n关键字:\n"+word)#停用词分析
def stripword(seg):#打开写入关键词的文件keyword = open('key_word.txt', 'w+', encoding='utf-8')print("去停用词:\n")wordlist = []#获取停用词表stop = open('stopword.txt', 'r+', encoding='utf-8')stopword = stop.read().split("\n")#遍历分词表for key in seg.split('/'):#print(key)#去除停用词,去除单字,去除重复词if not(key.strip() in stopword) and (len(key.strip()) > 1) and not(key.strip() in wordlist) :wordlist.append(key)print(key)keyword.write(key+"\n")#停用词去除ENDstop.close()keyword.close()return '/'.join(wordlist)def creat():Rawdata = open('raw.txt','r+',encoding='utf-8')text = Rawdata.read()#调用分词stripdata(text)#ENDRawdata.close()
[Python3] 简单的jieba分词以及停用词去除相关推荐
- 贪心NLP——jieba分词、停用词过滤、词的标准化,词袋模型
基于结巴(jieba)的分词. Jieba是最常用的中文分词工具 import jiebaset_list=jieba.cut('中南财经政法大学在茶山刘',cut_all=False) print( ...
- 自然语言处理:用paddle对人民日报语料进行分词,停用词,数据清洗和熵计算
自然语言处理:用paddle对人民日报语料进行分词,停用词,数据清洗和熵计算 数据集提取: 公众号:YOLO的学习进阶日常 然后回复:nlp1 安装本地飞桨 本人 win10 python3.7 用的 ...
- NLP_learning 中文基本任务与处理(分词、停用词、词性标注、语句依存分析、关键词抽取、命名实体识别)介绍、jieba工具库
文章目录 1.分词 2.停用词和N-gram 停用词 N-gram 3. 更多任务(词性标注.依赖分析.NER.关键词抽取) 词性标注 句法依存分析 命名实体识别 关键词抽取 4. jieba工具库使 ...
- 用python对单一微博文档进行分词——jieba分词(加保留词和停用词)
当爬取完所需微博保存在一个csv文件中后,可用如下代码对其进行分词.保留所需词.去除停用词操作,并将分词结果放在新的文档中. 停用词和保留词网上都能搜到,我们也可以另外对停用词表进行编辑,也可以在保留 ...
- python去除文本停用词(jieba分词+哈工大停用词表)
停用词表 上github搜索中文停用词就有很多版本,百度.哈工大等.(自行下载,下面推荐一个,现在github windows平台应该要一些操作或fanqiang才能上,linux系统能直接上) ht ...
- python结巴分词去掉停用词、标点符号、虚词_NLP自然语言处理入门-- 文本预处理Pre-processing...
引言 自然语言处理NLP(nature language processing),顾名思义,就是使用计算机对语言文字进行处理的相关技术以及应用.在对文本做数据分析时,我们一大半的时间都会花在文本预处理 ...
- 结巴分词----去停用词
目前的课题需要用结巴分词处理一下数据,其中要去掉其中的停用词,以下是代码: import jieba import os import pymysqldef fun(filepath): # 遍历文件 ...
- python中jieba分词,并输出词云(基础版)
环境与文件准备 环境anaconda+pycharm,已经安装结巴库,wordcloud库,将0001-text.txt,stop_words.txt,dict.txt与新建py文件放到同一文件夹下. ...
- Lucene的Smart CN实现分词、停用词、扩展词
Lucene 中提供了 SmartCN 为中文提供分词功能,实际应用中还会涉及到停用词.扩展词(特殊词.专业词)等,因此本文将聚焦在 SmartCN 而暂时不考虑其他中文分词类库. 1 简介 anal ...
最新文章
- vj p1042捕风捉影 题解
- 论机器学习领域的内卷:不读PhD,我配不配找工作?
- 用法 stl_【c++】STL里的priority_queue用法总结
- SAP HANA数据库的搜索执行原理
- 《C++ Primer》14.3.1节练习
- 解决vue里iscroll(better-scroll)点击触发两次和初始化无法滚动问题!
- Linux 自动化运维工具 ansible
- 【linux指令】sed指令
- 鼠标点击后的CSS3跑马灯效果
- 8 传输层----TCP
- 两级压缩机行业调研报告 - 市场现状分析与发展前景预测
- MySQL中 Data truncated for column ‘xxx‘解决方法
- oracle一步一步01
- Cloudflare DDNS梅林插件代码
- CF 1467 B. Hills And Valleys
- SAP BASIS ADM100 中文版 Unit 9(5)
- QT 界面设计篇(水波纹进度条QProgressBarWater)
- Flutter集成友盟的SDK
- 图片无损压缩(ubuntu 安装 )
- CATTI 三级笔译考试准备
热门文章
- pyspark 使用jdbc 连接mysql 数据库报错 Access denied for user 'root'@'localhost'
- JAVA解压RAR5压缩包
- 如何从绩效报告中分辨出——好模型or坏模型
- UnicodeDecodeError: 'ascii' codec can't decode byte 0xe3 in position 17: ordinal not in range(128)
- 球半足球比分,欧冠杯:卡拉巴克 - 波兹南莱赫
- mysql 存储计算分离 开源_Openstack计算-存储-控制分离与计算节点的在线添加
- java基础—集合框架
- 【UCOSIII】1.初识UCOS
- 2023基于微信小程序的大学生社团活动报名管理系统(SSM+mysql)-JAVA.VUE(论文+开题报告+运行)
- w7计算机还原系统还原,w7系统怎么一键还原|电脑一键还原w7系统的方法