文章目录

  • 目录

    文章目录

    前言

    一、文本导入

    二、使用步骤

    1.引入库

    2.读入数据

    3.取出停用词表

    3.分词并去停用词(此时可以直接利用python原有的函数进行词频统计)

    4. 输出分词并去停用词的有用的词到txt

    5.函数调用

    6.结果

    总结



前言

本文记录了一下Python在文本处理时的一些过程+代码

一、文本导入

我准备了一个名为abstract.txt的文本文件

接着是在网上下载了stopword.txt(用于结巴分词时的停用词)

有一些是自己觉得没有用加上去的

另外建立了自己的词典extraDict.txt

准备工作做好了,就来看看怎么使用吧!

二、使用步骤

1.引入库

代码如下:

import jieba
from jieba.analyse import extract_tags
from sklearn.feature_extraction.text import TfidfVectorizer

2.读入数据

代码如下:

jieba.load_userdict('extraDict.txt')  # 导入自己建立词典

3.取出停用词表

def stopwordlist():stopwords = [line.strip() for line in open('chinesestopwords.txt', encoding='UTF-8').readlines()]# ---停用词补充,视具体情况而定---i = 0for i in range(19):stopwords.append(str(10 + i))# ----------------------return stopwords

4.分词并去停用词(此时可以直接利用python原有的函数进行词频统计)

def seg_word(line):# seg=jieba.cut_for_search(line.strip())seg = jieba.cut(line.strip())temp = ""counts = {}wordstop = stopwordlist()for word in seg:if word not in wordstop:if word != ' ':temp += wordtemp += '\n'counts[word] = counts.get(word, 0) + 1#统计每个词出现的次数return  temp #显示分词结果#return str(sorted(counts.items(), key=lambda x: x[1], reverse=True)[:20])  # 统计出现前二十最多的词及次数

5. 输出分词并去停用词的有用的词到txt

def output(inputfilename, outputfilename):inputfile = open(inputfilename, encoding='UTF-8', mode='r')outputfile = open(outputfilename, encoding='UTF-8', mode='w')for line in inputfile.readlines():line_seg = seg_word(line)outputfile.write(line_seg)inputfile.close()outputfile.close()return outputfile

6.函数调用

if __name__ == '__main__':print("__name__", __name__)inputfilename = 'abstract.txt'outputfilename = 'a1.txt'output(inputfilename, outputfilename)

7.结果

总结

以上就是今天要讲的内容,本文仅仅简单介绍了python的中文分词及词频统计,欢迎指正!

python中文分词+词频统计相关推荐

  1. Hadoop的改进实验(中文分词词频统计及英文词频统计)(1/4)

    声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...

  2. Hadoop的改进实验(中文分词词频统计及英文词频统计)(4/4)

    声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...

  3. Hadoop的改进实验(中文分词词频统计及英文词频统计)(2/4)

    声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...

  4. python结巴分词 词频统计_一个txt文档,已经用结巴分词分完词,怎么用python工具对这个分完词的文档进行计算统计词频,求脚本,非...

    匿名用户 1级 2016-11-03 回答 #!/usr/bin/env python3 #-*- coding:utf-8 -*- import os,random #假设要读取文件名为aa,位于当 ...

  5. Python中文分词及词频统计

    Python中文分词及词频统计 中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是 ...

  6. 【NLP】jieba分词-Python中文分词领域的佼佼者

    1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...

  7. python红楼梦词频统计

    python红楼梦词频统计 <红楼梦>人物的出场统计涉及对词汇的统计,中文文章的需要分词才能进行词频统计,需要用到jieba库. 分析过程: 代码: import jieba txt=op ...

  8. python-中文分词词频统计

    本文主要内容是进行一次中文词频统计.涉及内容包括多种模式下的分词比较和分词词性功能展示.   本次使用的是python的jieba库.该库可在命令提示符下,直接输入pip install jieba进 ...

  9. 浅析如何用Python进行中英文词频统计

    浅析如何用Python进行中英文词频统计 主要思路: 读取数据 数据预处理 分词 词频统计 结果显示 词频统计 TF-IDF(term frequency–inverse document frequ ...

  10. python 中文分词工具

    python 中文分词工具 jieba,https://github.com/fxsjy/jieba jieba_fast,https://github.com/deepcs233/jieba_fas ...

最新文章

  1. 如何在手游中运用高逼格光影效果?
  2. 结构体中的自然对界法则
  3. 第一章导言的笔记与思考
  4. mysql哪个版本和x86兼容_[C++]C++连接MySQL,封装为class(兼容x86和x64)
  5. hibernate不能保存时分秒处理
  6. Ruby笔记三(类、对象、属性)
  7. tensorflow学习笔记(4)softmax分类和简单神经网络比较
  8. java可变参数学习
  9. 将Excel表格数据转换成XML格式文件
  10. 彭国伦Fortran95学习笔记(一)第八章至第十六章
  11. 解决运行Vue项目localhost8080拒绝连接
  12. echarts常见图形-饼状图(四)
  13. python3大小写转换函数_python字符串大小写转换
  14. TFT实现表盘显示功能
  15. 加速,永无止境,媲美PanDownload!
  16. 51nod《拉勾专业算法能力测评》测试有感
  17. 会话机制(session)
  18. OLE技术及组件对象模型(COM)
  19. Linux内核中CPU主频和电压调整 (一)
  20. python apply_async死锁_python之并发编程(线程\进程\协程)

热门文章

  1. C专家编程 第1章 C:穿越时空的迷雾 1.1 C语言的史前阶段
  2. c语言专家编程,读书笔记
  3. DOTween中文详解(持续更新)
  4. iOS怎么做性能测试,看完这个你就懂了
  5. http和https连接下载
  6. (已解决)利用LiveReload插件实现vscode和谷歌浏览器实时刷新
  7. C语言 —— 回调函数
  8. Android:Json数据转换成Map
  9. 学习React基本渲染数据操作(-)
  10. python判断完美数_Python识别完美数