一、中文词频统计

1. 下载一长篇中文小说。

2. 从文件读取待分析文本。

3. 安装并使用jieba进行中文分词。

pip install jieba

import jieba

jieba.lcut(text)

4. 更新词库,加入所分析对象的专业词汇。

jieba.add_word('天罡北斗阵')  #逐个添加

jieba.load_userdict(word_dict)  #词库文本文件

参考词库下载地址:https://pinyin.sogou.com/dict/

转换代码:scel_to_text

5. 生成词频统计

6. 排序

7. 排除语法型词汇,代词、冠词、连词等停用词。

8. 输出词频最大TOP20,把结果存放到文件里

9. 生成词云。

二、实现

1、本文下载了余华的《活着》,放于huozhe.txt中

2、读取文本

mytext = open('huozhe.txt',encoding='UTF-8').read()

3、安装jieba

4、更新词库,加入所分析对象的专业词汇

jieba.add_word('福贵')

jieba.add_word('家珍')

jieba.add_word('凤霞')

jieba.add_word('有庆')

jieba.add_word('二喜')

jieba.add_word('苦根')

5. 生成词频统计

'''分割出词汇'''words=list(jieba.cut(mytext))

wordDict={}'''统计频率次数'''wordSet=set(words)for w inwordSet:if len(w)>1:

wordDict[w]= words.count(w)

6. 排序

'''排序'''wordList=list(wordDict.items())

wordList.sort(key=lambda x:x[1],reverse=True)

7. 排除语法型词汇,代词、冠词、连词等停用词。

ci=['我们','知道','看到','自己','起来','什么','他们','一个','看着','没有','看看','就是','怎么','还是','这么','觉得']for c inci:

mytext= mytext.replace(c, "")

8. 输出词频最大TOP20,把结果存放到文件里

'''输出top20'''

for i in range(20):print(wordList[i])'''保存为csv文件'''pd.DataFrame(data=wordList).to_csv('My story.csv',encoding='utf-8')

9. 生成词云

10、整体代码

importjiebaimportpandas as pd

mytext= open('huozhe.txt',encoding='UTF-8').read()

jieba.add_word('福贵')

jieba.add_word('家珍')

jieba.add_word('凤霞')

jieba.add_word('有庆')

jieba.add_word('二喜')

jieba.add_word('苦根')

ci=['。','《','》',' ','我们','知道','看到','自己','起来','什么','他们','一个','看着','没有','看看','就是','怎么','还是','这么','觉得']for c inci:

mytext= mytext.replace(c, "")'''分割出词汇'''words=list(jieba.cut(mytext))

wordDict={}'''统计频率次数'''wordSet=set(words)for w inwordSet:if len(w)>1:

wordDict[w]=words.count(w)'''排序'''wordList=list(wordDict.items())

wordList.sort(key=lambda x:x[1],reverse=True)'''输出top20'''

for i in range(20):print(wordList[i])'''保存为csv文件'''pd.DataFrame(data=wordList).to_csv('My story.csv',encoding='utf-8')

11、运行截图

统计csv词频_中文词频统计与词云生成相关推荐

  1. 统计csv词频_中文词频统计

    中文词频统计 1. 下载一长篇中文小说. <倚天屠龙记> 2. 从文件读取待分析文本. 3. 安装并使用jieba进行中文分词. pip install jieba import jieb ...

  2. 使用Python做中文分词和绘制词云

    使用Python做中文分词和绘制词云 李小璐出轨云词图 作为一门编程语言,Python的编写简单,支持库强大,应用场景多,越来越多的人开始将它作为自己的编程入门语言. Python一个比较重要的场景是 ...

  3. python中文分词器-jieba分词器详解及wordcloud词云生成

    jieba分词 jieba分词支持三种分词模式: 精确模式, 试图将句子最精确地切开,适合文本分析 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义 搜索引擎模式,在精确模 ...

  4. 基于python的词云生成-中文词云(指定词云形状)

    基于python的词云生成(二) 1.简介    本文是在基于python的词云生成(一)的基础上,进一步对云词进行编写,本文还使用了jieba分词对中文进行分词处理,以做出更好的效果.    jie ...

  5. python中文词云生成

    一.词云 "词云"就是对网络文本中出现频率较高的"关键词"予以视觉上的突出,形成"关键词云层"或"关键词渲染",从而过滤 ...

  6. 中文词频统计与词云生成

    本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 中文词频统计 1. 下载一长篇中文小说. 2. 从文件读取 ...

  7. python统计段落单词词频_使用Python统计文件中词频,并且生成词云

    wordcloud Table of Contents 1 怎样使用Python产生词云 from wordcloud import WordCloud import matplotlib.pyplo ...

  8. python词云需要导入什么包_[python] 词云:wordcloud包的安装、使用、原理(源码分析)、中文词云生成、代码重写...

    词云,又称文字云.标签云,是对文本数据中出现频率较高的"关键词"在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思.常见于博客. ...

  9. python生成中文词云的代码_[python] 基于词云的关键词提取:wordcloud的使用、源码分析、中文词云生成和代码重写...

    1. 词云简介 词云,又称文字云.标签云,是对文本数据中出现频率较高的"关键词"在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意 ...

最新文章

  1. P3196 [HNOI2008]神奇的国度(弦图的最小染色问题)
  2. 002.iSCSI服务端配置
  3. 架构师之路 — 部署架构 — 集群部署
  4. Python继承,子类调用父类的两(2)种方法
  5. 3.C#知识点:is和as
  6. 2019年那些匆忙入市的朋友现在都赚到钱了吗?
  7. 【C++】带空格输入
  8. 60-140-040-使用-DataSink-Data Sink 介绍
  9. linux内核虚拟内存之高端物理内存与非连续内存分配
  10. 【单目标优化求解】基于matlab被囊群算法(TSA)求解最优目标问题【含Matlab源码 1567期】
  11. redis 编译/调试
  12. 知识分享|日本面试常考问题+巧妙回答 ②
  13. c 语言编程规则,C语言编程之 makfile规则.doc
  14. 微信JS接口安全域名填写ip地址
  15. ubuntu使用gdown下载谷歌云盘(google drive)文件
  16. DWG文件如何转换为PDF黑白文件
  17. 太用力的人跑不远(转)
  18. 下载windows10.iso
  19. 关于.aspx与.aspx.cs的关系
  20. Linux中安装配置jdk

热门文章

  1. windows+vscode+夜神模拟器 flutter环境配置
  2. 重新编译存储过程(sp_recompile)
  3. 垃圾分类不用慌!AI智能垃圾分类来了!
  4. 零拷贝( Zero-copy )
  5. 毕业设计 python爬虫基础+数据分析
  6. java实现base64字符串转换成图片保存
  7. mysql触发器弊端_MySQL触发器的作用及弊端
  8. 【小学数学】假设法解鸡兔同笼
  9. 本人打算利用工作之余把一些好的游戏技术文章整理到(游戏技术论坛)(http://www.592xue.net/)
  10. python3 神经网络_如何在Python 3中欺骗神经网络