前言

本文记录了一下Python在文本处理时的一些过程+代码

一、文本导入

我准备了一个名为abstract.txt的文本文件

接着是在网上下载了stopword.txt(用于结巴分词时的停用词)

有一些是自己觉得没有用加上去的

另外建立了自己的词典extraDict.txt

准备工作做好了，就来看看怎么使用吧！

二、使用步骤

1.引入库

代码如下：

import jieba
from jieba.analyse import extract_tags
from sklearn.feature_extraction.text import TfidfVectorizer

2.读入数据

代码如下：

jieba.load_userdict('extraDict.txt')  # 导入自己建立词典

3.取出停用词表

def stopwordlist():stopwords = [line.strip() for line in open('chinesestopwords.txt', encoding='UTF-8').readlines()]# ---停用词补充,视具体情况而定---i = 0for i in range(19):stopwords.append(str(10 + i))# ----------------------return stopwords

4.分词并去停用词（此时可以直接利用python原有的函数进行词频统计）

def seg_word(line):# seg=jieba.cut_for_search(line.strip())seg = jieba.cut(line.strip())temp = ""counts = {}wordstop = stopwordlist()for word in seg:if word not in wordstop:if word != ' ':temp += wordtemp += '\n'counts[word] = counts.get(word, 0) + 1#统计每个词出现的次数return  temp #显示分词结果#return str(sorted(counts.items(), key=lambda x: x[1], reverse=True)[:20])  # 统计出现前二十最多的词及次数

5. 输出分词并去停用词的有用的词到txt

def output(inputfilename, outputfilename):inputfile = open(inputfilename, encoding='UTF-8', mode='r')outputfile = open(outputfilename, encoding='UTF-8', mode='w')for line in inputfile.readlines():line_seg = seg_word(line)outputfile.write(line_seg)inputfile.close()outputfile.close()return outputfile

6.函数调用

if __name__ == '__main__':print("__name__", __name__)inputfilename = 'abstract.txt'outputfilename = 'a1.txt'output(inputfilename, outputfilename)

7.结果

总结

以上就是今天要讲的内容，本文仅仅简单介绍了python的中文分词及词频统计，欢迎指正！

python中文分词+词频统计相关推荐

Hadoop的改进实验（中文分词词频统计及英文词频统计）（1/4）
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...
Hadoop的改进实验（中文分词词频统计及英文词频统计）（4/4）
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...
Hadoop的改进实验（中文分词词频统计及英文词频统计）（2/4）
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...
python结巴分词词频统计_一个txt文档，已经用结巴分词分完词，怎么用python工具对这个分完词的文档进行计算统计词频，求脚本，非...
匿名用户 1级 2016-11-03 回答 #!/usr/bin/env python3 #-*- coding:utf-8 -*- import os,random #假设要读取文件名为aa,位于当 ...
Python中文分词及词频统计
Python中文分词及词频统计中文分词中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是 ...
【NLP】jieba分词-Python中文分词领域的佼佼者
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...
python红楼梦词频统计
python红楼梦词频统计 <红楼梦>人物的出场统计涉及对词汇的统计,中文文章的需要分词才能进行词频统计,需要用到jieba库. 分析过程: 代码: import jieba txt=op ...
python-中文分词词频统计
本文主要内容是进行一次中文词频统计.涉及内容包括多种模式下的分词比较和分词词性功能展示. 本次使用的是python的jieba库.该库可在命令提示符下,直接输入pip install jieba进 ...
浅析如何用Python进行中英文词频统计
浅析如何用Python进行中英文词频统计主要思路: 读取数据数据预处理分词词频统计结果显示词频统计 TF-IDF(term frequency–inverse document frequ ...
python 中文分词工具
python 中文分词工具 jieba,https://github.com/fxsjy/jieba jieba_fast,https://github.com/deepcs233/jieba_fas ...

python中文分词+词频统计

文章目录

前言

一、文本导入

二、使用步骤

1.引入库

2.读入数据

3.取出停用词表

4.分词并去停用词（此时可以直接利用python原有的函数进行词频统计）

5. 输出分词并去停用词的有用的词到txt

6.函数调用

7.结果

总结

python中文分词+词频统计相关推荐

最新文章

热门文章