Python借助jieba包对中文txt文档去停用词、分词`

import jieba# 创建停用词list
def stopwordslist(filepath):stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]return stopwords# 对句子进行分词
def seg_sentence(sentence):sentence_seged = jieba.cut(sentence.strip())stopwords = stopwordslist('E:\停用词位置.txt') # 这里加载停用词的路径outstr = ''for word in sentence_seged:if word not in stopwords:if word != '\t':outstr += wordoutstr += " "return outstrinputs = open('E:\待分词文档位置.txt', 'r', encoding='utf-8')#读取路径与待分词文档位置一致
outputs = open('E:\分词后写入文档的位置.txt', 'w',encoding='utf-8')#写入路径与分词后写入文档的位置
for line in inputs:line_seg = seg_sentence(line)  # 这里的返回值是字符串outputs.write(line_seg + '\n')
outputs.close()
inputs.close()

欢迎大家一起学习,一起交流!

Python借助jieba包对中文txt文档去停用词、分词相关推荐

  1. python借助jieba包对单独test和txt文档进行中文分词

    python借助jieba包对单独test和txt文档进行中文分词 一.单独test分词 import jieba jieba.cut("大连圣亚在大连") *#输出:<ge ...

  2. 基于python中jieba包的中文分词中详细使用

    基于python中jieba包的中文分词中详细使用(一) 01.前言 之前的文章中也是用过一些jieba分词但是基本上都是处于皮毛,现在就现有的python环境中对其官方文档做一些自己的理解以及具体的 ...

  3. 基于python中jieba包的中文分词中详细使用(一)

    文章目录 基于python中jieba包的中文分词中详细使用(一) 01.前言 02.jieba的介绍 02.1 What 02.2特点 02.3安装与使用 02.4涉及到的算法 03.主要功能 03 ...

  4. 基于python中jieba包的中文分词中详细使用(二)

    文章目录 基于python中jieba包的中文分词中详细使用(二) 01.前言 02.关键词提取 02.01基于TF-IDF算法的关键词提取 02.02词性标注 02.03并行分词 02.04Toke ...

  5. python逐行读取txt写入excel_用python从符合一定格式的txt文档中逐行读取数据并按一定规则写入excel(openpyxl支持Excel 2007 .xlsx格式)...

    前几天接到一个任务,从gerrit上通过ssh命令获取一些commit相关的数据到文本文档中,随后将这些数据存入Excel中.数据格式如下图所示 观察上图可知,存在文本文档中的数据符合一定的格式,通过 ...

  6. python结巴分词 词频统计_一个txt文档,已经用结巴分词分完词,怎么用python工具对这个分完词的文档进行计算统计词频,求脚本,非...

    匿名用户 1级 2016-11-03 回答 #!/usr/bin/env python3 #-*- coding:utf-8 -*- import os,random #假设要读取文件名为aa,位于当 ...

  7. python分词统计词频_python jieba分词并统计词频后输出结果到Excel和txt文档方法

    前两天,班上同学写论文,需要将很多篇论文题目按照中文的习惯分词并统计每个词出现的频率. 让我帮她实现这个功能,我在网上查了之后发现jieba这个库还挺不错的. 运行环境: 安装python2.7.13 ...

  8. python处理图片文件_python 学习(二)处理图片、TXT文档

    一.尝试实现场景:将一个txt文档内容读到程序的数组内 1.新建一个文档 array.txt,写入内容 ,如: 2.使用命令行读取: 1)在上述新建文档位置相同目录下打开命令提示窗 2)打开文件,读入 ...

  9. NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码

    NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分)之全部代码 目录 全部代码 相关文章 NLP之情感分析:基于python编程(jieba库)实现中文文本情 ...

最新文章

  1. 给大家推荐几本经典技术书籍
  2. thinkphp 个别字段无法更新_Ripro子主题:jizhichlid极致主题,原创首发永久更新,不限域名永乐使用...
  3. VTK:小部件之HoverWidget
  4. [导入]博客搬家了,呵呵
  5. Eclipse Plug-in Hello world
  6. 狼真来了!黑客利用SS7漏洞将网银用户洗劫一空
  7. mysql怎样在bat脚本中添加日志_如何在windows下用bat脚本定时备份mysql
  8. 大数据技术的表现形式有哪些
  9. 军用设备环境试验GJB150A-2009检测报告机构
  10. 【详细图文教程】Anaconda的下载及安装
  11. iOS 各种项目源码集
  12. Hadoop大数据技术课程总结2021-2022学年第1学期
  13. 使用Matlab绘制gif动图
  14. 老飞飞秒进卡尔贝西龙洞不用走路的方法
  15. .net实现微信公众账号接口开发
  16. SQL连接的理解和使用(内连接:自然连接等值连接,外连接:左连接右连接全外连接)
  17. 2021-10-15 验证form表单的内容是否已存在数据库
  18. [工具使用]Wireshark
  19. C++实现二路归并排序算法
  20. linux 查看numa信息,Linux中查看NUMA信息

热门文章

  1. 计算机二级数据库试题6,2016计算机二级Access真题及答案
  2. 世界杯:用Python分析热门夺冠球队 1
  3. QT实现简单桌面时钟,取消ui设置
  4. 如何改变premiere pro的安装路径
  5. select取地区及下级区域_寒冷地区公共厨房通风系统方案分析与研究
  6. python redis 集群_python 连接redis集群 ,常见报错解决。
  7. 五子棋——控制台版本
  8. onethink常见问题
  9. 深度优先算法的应用——农夫过河问题
  10. Android 联想,雷电,mumu,游戏饭(长尾)游戏联运SDK接入