python中文分词+词频统计
文章目录
目录
文章目录
前言
一、文本导入
二、使用步骤
1.引入库
2.读入数据
3.取出停用词表
3.分词并去停用词(此时可以直接利用python原有的函数进行词频统计)
4. 输出分词并去停用词的有用的词到txt
5.函数调用
6.结果
总结
前言
本文记录了一下Python在文本处理时的一些过程+代码
一、文本导入
我准备了一个名为abstract.txt的文本文件
接着是在网上下载了stopword.txt(用于结巴分词时的停用词)
有一些是自己觉得没有用加上去的
另外建立了自己的词典extraDict.txt
准备工作做好了,就来看看怎么使用吧!
二、使用步骤
1.引入库
代码如下:
import jieba
from jieba.analyse import extract_tags
from sklearn.feature_extraction.text import TfidfVectorizer
2.读入数据
代码如下:
jieba.load_userdict('extraDict.txt') # 导入自己建立词典
3.取出停用词表
def stopwordlist():stopwords = [line.strip() for line in open('chinesestopwords.txt', encoding='UTF-8').readlines()]# ---停用词补充,视具体情况而定---i = 0for i in range(19):stopwords.append(str(10 + i))# ----------------------return stopwords
4.分词并去停用词(此时可以直接利用python原有的函数进行词频统计)
def seg_word(line):# seg=jieba.cut_for_search(line.strip())seg = jieba.cut(line.strip())temp = ""counts = {}wordstop = stopwordlist()for word in seg:if word not in wordstop:if word != ' ':temp += wordtemp += '\n'counts[word] = counts.get(word, 0) + 1#统计每个词出现的次数return temp #显示分词结果#return str(sorted(counts.items(), key=lambda x: x[1], reverse=True)[:20]) # 统计出现前二十最多的词及次数
5. 输出分词并去停用词的有用的词到txt
def output(inputfilename, outputfilename):inputfile = open(inputfilename, encoding='UTF-8', mode='r')outputfile = open(outputfilename, encoding='UTF-8', mode='w')for line in inputfile.readlines():line_seg = seg_word(line)outputfile.write(line_seg)inputfile.close()outputfile.close()return outputfile
6.函数调用
if __name__ == '__main__':print("__name__", __name__)inputfilename = 'abstract.txt'outputfilename = 'a1.txt'output(inputfilename, outputfilename)
7.结果
总结
以上就是今天要讲的内容,本文仅仅简单介绍了python的中文分词及词频统计,欢迎指正!
python中文分词+词频统计相关推荐
- Hadoop的改进实验(中文分词词频统计及英文词频统计)(1/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...
- Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...
- Hadoop的改进实验(中文分词词频统计及英文词频统计)(2/4)
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...
- python结巴分词 词频统计_一个txt文档,已经用结巴分词分完词,怎么用python工具对这个分完词的文档进行计算统计词频,求脚本,非...
匿名用户 1级 2016-11-03 回答 #!/usr/bin/env python3 #-*- coding:utf-8 -*- import os,random #假设要读取文件名为aa,位于当 ...
- Python中文分词及词频统计
Python中文分词及词频统计 中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是 ...
- 【NLP】jieba分词-Python中文分词领域的佼佼者
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...
- python红楼梦词频统计
python红楼梦词频统计 <红楼梦>人物的出场统计涉及对词汇的统计,中文文章的需要分词才能进行词频统计,需要用到jieba库. 分析过程: 代码: import jieba txt=op ...
- python-中文分词词频统计
本文主要内容是进行一次中文词频统计.涉及内容包括多种模式下的分词比较和分词词性功能展示. 本次使用的是python的jieba库.该库可在命令提示符下,直接输入pip install jieba进 ...
- 浅析如何用Python进行中英文词频统计
浅析如何用Python进行中英文词频统计 主要思路: 读取数据 数据预处理 分词 词频统计 结果显示 词频统计 TF-IDF(term frequency–inverse document frequ ...
- python 中文分词工具
python 中文分词工具 jieba,https://github.com/fxsjy/jieba jieba_fast,https://github.com/deepcs233/jieba_fas ...
最新文章
- 如何在手游中运用高逼格光影效果?
- 结构体中的自然对界法则
- 第一章导言的笔记与思考
- mysql哪个版本和x86兼容_[C++]C++连接MySQL,封装为class(兼容x86和x64)
- hibernate不能保存时分秒处理
- Ruby笔记三(类、对象、属性)
- tensorflow学习笔记(4)softmax分类和简单神经网络比较
- java可变参数学习
- 将Excel表格数据转换成XML格式文件
- 彭国伦Fortran95学习笔记(一)第八章至第十六章
- 解决运行Vue项目localhost8080拒绝连接
- echarts常见图形-饼状图(四)
- python3大小写转换函数_python字符串大小写转换
- TFT实现表盘显示功能
- 加速,永无止境,媲美PanDownload!
- 51nod《拉勾专业算法能力测评》测试有感
- 会话机制(session)
- OLE技术及组件对象模型(COM)
- Linux内核中CPU主频和电压调整 (一)
- python apply_async死锁_python之并发编程(线程\进程\协程)