目前的课题需要用结巴分词处理一下数据,其中要去掉其中的停用词,以下是代码:

import jieba
import os
import pymysqldef fun(filepath):  # 遍历文件夹中的所有文件,返回文件listarr = []for root, dirs, files in os.walk(filepath):for fn in files:arr.append(root+"\\"+fn)return arr#创建停用词表
def stopwordslist(filepath):stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]return stopwords# 对句子去除停用词
def movestopwords(sentence):stopwords = stopwordslist('D:/2181729/stop_words.txt')  # 这里加载停用词的路径santi_words =[x for x in sentence if len(x) >1 and x not in stopwords]return santi_wordsdef segmentor(text):words = jieba.cut(text, cut_all=False)return words
#stopwords = {}.fromkeys(['的', '包括', '等', '是', '《', '》', '(', ')', '.', '、', '。'])stopwords = stopwordslist('D:/2181729/stop_words.txt')filepath = r'D:/2181729/data'
filelist = fun(filepath)  # 获取文件列表
text = ""
count = 0
print(len(filelist))
#f1 = open('D:/2181729/nerfcdata/1.txt', 'a+')
for file in filelist:with open(file, encoding='UTF-8')as f:for line in f:segs = jieba.cut(line, cut_all=False)for seg in segs:if seg not in stopwords:text += segwords = segmentor(text)#print('/'.join(words))count += 1output = '/'.join(words)dir='D:/2181729/nerfcdata/'+f.name[-5:]with open(dir, 'w', encoding='UTF-8') as f1:print(output)f1.write(output)

结巴分词----去停用词相关推荐

  1. python结巴分词去掉停用词、标点符号、虚词_NLP自然语言处理入门-- 文本预处理Pre-processing...

    引言 自然语言处理NLP(nature language processing),顾名思义,就是使用计算机对语言文字进行处理的相关技术以及应用.在对文本做数据分析时,我们一大半的时间都会花在文本预处理 ...

  2. (3.2)将分词和去停用词后的评论文本基于“环境、卫生、价格、服务”分类...

    酒店评论情感分析系统(三)-- 将分词和去停用词后的评论文本基于"环境.卫生.价格.服务"分类 思想: 将进行了中文分词和去停用词之后得到的词或短语按序存在一个数组(iniArra ...

  3. 文本分析——分词并去停用词返回嵌套列表并保存到本地

    文章目录 文本分析分词并去停用词返回嵌套列表 读取文件并进行分词去停用词操作 保存结果到本地 从本地读取结果 文本分析分词并去停用词返回嵌套列表 此代码块用于分词并去停用词(从csv文件转成了txt分 ...

  4. 『NLP自然语言处理』中文文本的分词、去标点符号、去停用词、词性标注

    利用Python代码实现中文文本的自然语言处理,包括分词.去标点符号.去停用词.词性标注&过滤. 在刚开始的每个模块,介绍它的实现.最后会将整个文本处理过程封装成 TextProcess 类. ...

  5. IKAnalyzer进行中文分词和去停用词

    最近学习主题模型pLSA.LDA,就想拿来试试中文.首先就是找文本进行切词.去停用词等预处理,这里我找了开源工具IKAnalyzer2012,下载地址:(:(注意:这里尽量下载最新版本,我这里用的IK ...

  6. 分词并去停用词自定义函数:seg_word(sentence)

    分词并去停用词自定义函数:seg_word(sentence). import jieba def seg_word(sentence):"""使用jieba对文档分词& ...

  7. Gensim:word2vec(jieba分词,去停用词)

    参考https://www.cnblogs.com/pinard/p/7278324.html 计算词向量 gensim计算词向量需要执行三个步骤 model=gensim.models.Word2V ...

  8. Python借助jieba包对中文txt文档去停用词、分词

    Python借助jieba包对中文txt文档去停用词.分词` import jieba# 创建停用词list def stopwordslist(filepath):stopwords = [line ...

  9. 文本相似度计算 python去停用词_python专业方向 | 文本相似度计算

    欢迎关注我们的微信公众号"人工智能LeadAI"(ID:atleadai)步骤 1.分词.去停用词 2.词袋模型向量化文本 3.TF-IDF模型向量化文本 4.LSI模型向量化文本 ...

最新文章

  1. 从无到有,支付路由系统升级打怪之路|原创
  2. python笔记-列表和元组
  3. 10个快速提升技术水平的方法
  4. 如何理解这6种常见设计模式?
  5. 转: Div与table的区别
  6. 160 - 30 cracking4all.1
  7. linux批量去掉文件名前缀,linux 批量删除某个前缀文件
  8. 让Ubuntu更多的使用物理内存
  9. Hibernate二级缓存 --Hibernate框架
  10. 闻乐天授江州司马 [唐] 元稹
  11. 如何创建linux 脚本,如何创建和执行shell脚本
  12. 电子商务信息整合平台方案
  13. Failed installing 'Tomcat9' service
  14. 汉字识别原理、方法与实现
  15. 家里两个孩子,你们会一个跟爸姓,一个跟妈姓吗?
  16. Windows 11正式发布,新功能太绝了!
  17. 计算机开机扫描磁盘,电脑开机扫描磁盘的方法
  18. oracle定时任务实例
  19. Asia's pollution exodus: Firms struggle to woo top talent 逃离亚洲空气污染:企业难以吸引顶尖人才
  20. 如何在微软Azure上搭建个人博客网站

热门文章

  1. 自定义的串口通信协议
  2. Acrobat_8_Pro_SC 激活老是提示你输入的授权码无效
  3. elastic-job:参考elastic-console在自己代码中实现任务的失效、生效、终止操作
  4. mysql 建表 sql语句
  5. C语言程序设计-1024 科学计数法
  6. mac连接远程Linux(Ubuntu)
  7. win7 64位连接oracle11g,win7 64位系统下使用32位PLSQL连接64位Oracle 11g
  8. 如何在Java中转义HTML
  9. 虚拟机交叉编译openCV详细步骤及bug解决详解
  10. Win7运行命令的打开方法 Win7运行命令大全(45个)