统计csv词频_中文词频统计与词云生成

一、中文词频统计

1. 下载一长篇中文小说。

2. 从文件读取待分析文本。

3. 安装并使用jieba进行中文分词。

pip install jieba

import jieba

jieba.lcut(text)

4. 更新词库，加入所分析对象的专业词汇。

jieba.add_word('天罡北斗阵') #逐个添加

jieba.load_userdict(word_dict) #词库文本文件

参考词库下载地址：https://pinyin.sogou.com/dict/

转换代码：scel_to_text

5. 生成词频统计

6. 排序

7. 排除语法型词汇，代词、冠词、连词等停用词。

8. 输出词频最大TOP20，把结果存放到文件里

9. 生成词云。

二、实现

1、本文下载了余华的《活着》，放于huozhe.txt中

2、读取文本

mytext = open('huozhe.txt',encoding='UTF-8').read()

3、安装jieba

4、更新词库，加入所分析对象的专业词汇

jieba.add_word('福贵')

jieba.add_word('家珍')

jieba.add_word('凤霞')

jieba.add_word('有庆')

jieba.add_word('二喜')

jieba.add_word('苦根')

5. 生成词频统计

'''分割出词汇'''words=list(jieba.cut(mytext))

wordDict={}'''统计频率次数'''wordSet=set(words)for w inwordSet:if len(w)>1:

wordDict[w]= words.count(w)

6. 排序

'''排序'''wordList=list(wordDict.items())

wordList.sort(key=lambda x:x[1],reverse=True)

7. 排除语法型词汇，代词、冠词、连词等停用词。

ci=['我们','知道','看到','自己','起来','什么','他们','一个','看着','没有','看看','就是','怎么','还是','这么','觉得']for c inci:

mytext= mytext.replace(c, "")

8. 输出词频最大TOP20，把结果存放到文件里

'''输出top20'''

for i in range(20):print(wordList[i])'''保存为csv文件'''pd.DataFrame(data=wordList).to_csv('My story.csv',encoding='utf-8')

9. 生成词云

10、整体代码

importjiebaimportpandas as pd

mytext= open('huozhe.txt',encoding='UTF-8').read()

jieba.add_word('福贵')

jieba.add_word('家珍')

jieba.add_word('凤霞')

jieba.add_word('有庆')

jieba.add_word('二喜')

jieba.add_word('苦根')

ci=['。','《','》',' ','我们','知道','看到','自己','起来','什么','他们','一个','看着','没有','看看','就是','怎么','还是','这么','觉得']for c inci:

mytext= mytext.replace(c, "")'''分割出词汇'''words=list(jieba.cut(mytext))

wordDict={}'''统计频率次数'''wordSet=set(words)for w inwordSet:if len(w)>1:

wordDict[w]=words.count(w)'''排序'''wordList=list(wordDict.items())

wordList.sort(key=lambda x:x[1],reverse=True)'''输出top20'''

for i in range(20):print(wordList[i])'''保存为csv文件'''pd.DataFrame(data=wordList).to_csv('My story.csv',encoding='utf-8')

11、运行截图

统计csv词频_中文词频统计与词云生成相关推荐

统计csv词频_中文词频统计
中文词频统计 1. 下载一长篇中文小说. <倚天屠龙记> 2. 从文件读取待分析文本. 3. 安装并使用jieba进行中文分词. pip install jieba import jieb ...
使用Python做中文分词和绘制词云
使用Python做中文分词和绘制词云李小璐出轨云词图作为一门编程语言,Python的编写简单,支持库强大,应用场景多,越来越多的人开始将它作为自己的编程入门语言. Python一个比较重要的场景是 ...
python中文分词器－jieba分词器详解及wordcloud词云生成
jieba分词 jieba分词支持三种分词模式: 精确模式, 试图将句子最精确地切开,适合文本分析全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义搜索引擎模式,在精确模 ...
基于python的词云生成-中文词云（指定词云形状）
基于python的词云生成(二) 1.简介本文是在基于python的词云生成(一)的基础上,进一步对云词进行编写,本文还使用了jieba分词对中文进行分词处理,以做出更好的效果. jie ...
python中文词云生成
一.词云 "词云"就是对网络文本中出现频率较高的"关键词"予以视觉上的突出,形成"关键词云层"或"关键词渲染",从而过滤 ...
中文词频统计与词云生成
本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 中文词频统计 1. 下载一长篇中文小说. 2. 从文件读取 ...
python统计段落单词词频_使用Python统计文件中词频，并且生成词云
wordcloud Table of Contents 1 怎样使用Python产生词云 from wordcloud import WordCloud import matplotlib.pyplo ...
python词云需要导入什么包_[python] 词云：wordcloud包的安装、使用、原理（源码分析）、中文词云生成、代码重写...
词云,又称文字云.标签云,是对文本数据中出现频率较高的"关键词"在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思.常见于博客. ...
python生成中文词云的代码_[python] 基于词云的关键词提取：wordcloud的使用、源码分析、中文词云生成和代码重写...
1. 词云简介词云,又称文字云.标签云,是对文本数据中出现频率较高的"关键词"在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意 ...

统计csv词频_中文词频统计与词云生成

统计csv词频_中文词频统计与词云生成相关推荐

最新文章

热门文章