本文主要为【爬取百度搜索内容页广告均数】提供关键词文件,主要做输入文件的分词功能,并写入key_word.txt文件,以供下一模块使用。

https://blog.csdn.net/qq_36791314/article/details/86724025

函数功能主要为调用简单的jiaba分词(stripdata函数)并进行停用词去除(stripword函数)
main函数为creat(),可修改为if __name__ ==’__main__’: 进行调用。

文件解释:

  • Rawdata 初始数据,即一个段落或文章
  • stop 停用词文件,用\n间隔
  • keyword 关键词表
import jieba#分词
def stripdata(Test):# jieba 默认启用了HMM(隐马尔科夫模型)进行中文分词seg_list = jieba.cut(Test,cut_all=True)  # 分词#获取字典,去除停用词line = "/".join(seg_list)word = stripword(line)#print(line)#列出关键字print("\n关键字:\n"+word)#停用词分析
def stripword(seg):#打开写入关键词的文件keyword = open('key_word.txt', 'w+', encoding='utf-8')print("去停用词:\n")wordlist = []#获取停用词表stop = open('stopword.txt', 'r+', encoding='utf-8')stopword = stop.read().split("\n")#遍历分词表for key in seg.split('/'):#print(key)#去除停用词,去除单字,去除重复词if not(key.strip() in stopword) and (len(key.strip()) > 1) and not(key.strip() in wordlist) :wordlist.append(key)print(key)keyword.write(key+"\n")#停用词去除ENDstop.close()keyword.close()return '/'.join(wordlist)def creat():Rawdata = open('raw.txt','r+',encoding='utf-8')text = Rawdata.read()#调用分词stripdata(text)#ENDRawdata.close()

[Python3] 简单的jieba分词以及停用词去除相关推荐

  1. 贪心NLP——jieba分词、停用词过滤、词的标准化,词袋模型

    基于结巴(jieba)的分词. Jieba是最常用的中文分词工具 import jiebaset_list=jieba.cut('中南财经政法大学在茶山刘',cut_all=False) print( ...

  2. 自然语言处理:用paddle对人民日报语料进行分词,停用词,数据清洗和熵计算

    自然语言处理:用paddle对人民日报语料进行分词,停用词,数据清洗和熵计算 数据集提取: 公众号:YOLO的学习进阶日常 然后回复:nlp1 安装本地飞桨 本人 win10 python3.7 用的 ...

  3. NLP_learning 中文基本任务与处理(分词、停用词、词性标注、语句依存分析、关键词抽取、命名实体识别)介绍、jieba工具库

    文章目录 1.分词 2.停用词和N-gram 停用词 N-gram 3. 更多任务(词性标注.依赖分析.NER.关键词抽取) 词性标注 句法依存分析 命名实体识别 关键词抽取 4. jieba工具库使 ...

  4. 用python对单一微博文档进行分词——jieba分词(加保留词和停用词)

    当爬取完所需微博保存在一个csv文件中后,可用如下代码对其进行分词.保留所需词.去除停用词操作,并将分词结果放在新的文档中. 停用词和保留词网上都能搜到,我们也可以另外对停用词表进行编辑,也可以在保留 ...

  5. python去除文本停用词(jieba分词+哈工大停用词表)

    停用词表 上github搜索中文停用词就有很多版本,百度.哈工大等.(自行下载,下面推荐一个,现在github windows平台应该要一些操作或fanqiang才能上,linux系统能直接上) ht ...

  6. python结巴分词去掉停用词、标点符号、虚词_NLP自然语言处理入门-- 文本预处理Pre-processing...

    引言 自然语言处理NLP(nature language processing),顾名思义,就是使用计算机对语言文字进行处理的相关技术以及应用.在对文本做数据分析时,我们一大半的时间都会花在文本预处理 ...

  7. 结巴分词----去停用词

    目前的课题需要用结巴分词处理一下数据,其中要去掉其中的停用词,以下是代码: import jieba import os import pymysqldef fun(filepath): # 遍历文件 ...

  8. python中jieba分词,并输出词云(基础版)

    环境与文件准备 环境anaconda+pycharm,已经安装结巴库,wordcloud库,将0001-text.txt,stop_words.txt,dict.txt与新建py文件放到同一文件夹下. ...

  9. Lucene的Smart CN实现分词、停用词、扩展词

    Lucene 中提供了 SmartCN 为中文提供分词功能,实际应用中还会涉及到停用词.扩展词(特殊词.专业词)等,因此本文将聚焦在 SmartCN 而暂时不考虑其他中文分词类库. 1 简介 anal ...

最新文章

  1. vj p1042捕风捉影 题解
  2. 论机器学习领域的内卷:不读PhD,我配不配找工作?
  3. 用法 stl_【c++】STL里的priority_queue用法总结
  4. SAP HANA数据库的搜索执行原理
  5. 《C++ Primer》14.3.1节练习
  6. 解决vue里iscroll(better-scroll)点击触发两次和初始化无法滚动问题!
  7. Linux 自动化运维工具 ansible
  8. 【linux指令】sed指令
  9. 鼠标点击后的CSS3跑马灯效果
  10. 8 传输层----TCP
  11. 两级压缩机行业调研报告 - 市场现状分析与发展前景预测
  12. MySQL中 Data truncated for column ‘xxx‘解决方法
  13. oracle一步一步01
  14. Cloudflare DDNS梅林插件代码
  15. CF 1467 B. Hills And Valleys
  16. SAP BASIS ADM100 中文版 Unit 9(5)
  17. QT 界面设计篇(水波纹进度条QProgressBarWater)
  18. Flutter集成友盟的SDK
  19. 图片无损压缩(ubuntu 安装 )
  20. CATTI 三级笔译考试准备

热门文章

  1. pyspark 使用jdbc 连接mysql 数据库报错 Access denied for user 'root'@'localhost'
  2. JAVA解压RAR5压缩包
  3. 如何从绩效报告中分辨出——好模型or坏模型
  4. UnicodeDecodeError: 'ascii' codec can't decode byte 0xe3 in position 17: ordinal not in range(128)
  5. 球半足球比分,欧冠杯:卡拉巴克 - 波兹南莱赫
  6. mysql 存储计算分离 开源_Openstack计算-存储-控制分离与计算节点的在线添加
  7. java基础—集合框架
  8. 【UCOSIII】1.初识UCOS
  9. 2023基于微信小程序的大学生社团活动报名管理系统(SSM+mysql)-JAVA.VUE(论文+开题报告+运行)
  10. w7计算机还原系统还原,w7系统怎么一键还原|电脑一键还原w7系统的方法