统计csv词频_中文词频统计与词云生成
一、中文词频统计
1. 下载一长篇中文小说。
2. 从文件读取待分析文本。
3. 安装并使用jieba进行中文分词。
pip install jieba
import jieba
jieba.lcut(text)
4. 更新词库,加入所分析对象的专业词汇。
jieba.add_word('天罡北斗阵') #逐个添加
jieba.load_userdict(word_dict) #词库文本文件
参考词库下载地址:https://pinyin.sogou.com/dict/
转换代码:scel_to_text
5. 生成词频统计
6. 排序
7. 排除语法型词汇,代词、冠词、连词等停用词。
8. 输出词频最大TOP20,把结果存放到文件里
9. 生成词云。
二、实现
1、本文下载了余华的《活着》,放于huozhe.txt中
2、读取文本
mytext = open('huozhe.txt',encoding='UTF-8').read()
3、安装jieba
4、更新词库,加入所分析对象的专业词汇
jieba.add_word('福贵')
jieba.add_word('家珍')
jieba.add_word('凤霞')
jieba.add_word('有庆')
jieba.add_word('二喜')
jieba.add_word('苦根')
5. 生成词频统计
'''分割出词汇'''words=list(jieba.cut(mytext))
wordDict={}'''统计频率次数'''wordSet=set(words)for w inwordSet:if len(w)>1:
wordDict[w]= words.count(w)
6. 排序
'''排序'''wordList=list(wordDict.items())
wordList.sort(key=lambda x:x[1],reverse=True)
7. 排除语法型词汇,代词、冠词、连词等停用词。
ci=['我们','知道','看到','自己','起来','什么','他们','一个','看着','没有','看看','就是','怎么','还是','这么','觉得']for c inci:
mytext= mytext.replace(c, "")
8. 输出词频最大TOP20,把结果存放到文件里
'''输出top20'''
for i in range(20):print(wordList[i])'''保存为csv文件'''pd.DataFrame(data=wordList).to_csv('My story.csv',encoding='utf-8')
9. 生成词云
10、整体代码
importjiebaimportpandas as pd
mytext= open('huozhe.txt',encoding='UTF-8').read()
jieba.add_word('福贵')
jieba.add_word('家珍')
jieba.add_word('凤霞')
jieba.add_word('有庆')
jieba.add_word('二喜')
jieba.add_word('苦根')
ci=['。','《','》',' ','我们','知道','看到','自己','起来','什么','他们','一个','看着','没有','看看','就是','怎么','还是','这么','觉得']for c inci:
mytext= mytext.replace(c, "")'''分割出词汇'''words=list(jieba.cut(mytext))
wordDict={}'''统计频率次数'''wordSet=set(words)for w inwordSet:if len(w)>1:
wordDict[w]=words.count(w)'''排序'''wordList=list(wordDict.items())
wordList.sort(key=lambda x:x[1],reverse=True)'''输出top20'''
for i in range(20):print(wordList[i])'''保存为csv文件'''pd.DataFrame(data=wordList).to_csv('My story.csv',encoding='utf-8')
11、运行截图
统计csv词频_中文词频统计与词云生成相关推荐
- 统计csv词频_中文词频统计
中文词频统计 1. 下载一长篇中文小说. <倚天屠龙记> 2. 从文件读取待分析文本. 3. 安装并使用jieba进行中文分词. pip install jieba import jieb ...
- 使用Python做中文分词和绘制词云
使用Python做中文分词和绘制词云 李小璐出轨云词图 作为一门编程语言,Python的编写简单,支持库强大,应用场景多,越来越多的人开始将它作为自己的编程入门语言. Python一个比较重要的场景是 ...
- python中文分词器-jieba分词器详解及wordcloud词云生成
jieba分词 jieba分词支持三种分词模式: 精确模式, 试图将句子最精确地切开,适合文本分析 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义 搜索引擎模式,在精确模 ...
- 基于python的词云生成-中文词云(指定词云形状)
基于python的词云生成(二) 1.简介 本文是在基于python的词云生成(一)的基础上,进一步对云词进行编写,本文还使用了jieba分词对中文进行分词处理,以做出更好的效果. jie ...
- python中文词云生成
一.词云 "词云"就是对网络文本中出现频率较高的"关键词"予以视觉上的突出,形成"关键词云层"或"关键词渲染",从而过滤 ...
- 中文词频统计与词云生成
本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2822 中文词频统计 1. 下载一长篇中文小说. 2. 从文件读取 ...
- python统计段落单词词频_使用Python统计文件中词频,并且生成词云
wordcloud Table of Contents 1 怎样使用Python产生词云 from wordcloud import WordCloud import matplotlib.pyplo ...
- python词云需要导入什么包_[python] 词云:wordcloud包的安装、使用、原理(源码分析)、中文词云生成、代码重写...
词云,又称文字云.标签云,是对文本数据中出现频率较高的"关键词"在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思.常见于博客. ...
- python生成中文词云的代码_[python] 基于词云的关键词提取:wordcloud的使用、源码分析、中文词云生成和代码重写...
1. 词云简介 词云,又称文字云.标签云,是对文本数据中出现频率较高的"关键词"在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意 ...
最新文章
- P3196 [HNOI2008]神奇的国度(弦图的最小染色问题)
- 002.iSCSI服务端配置
- 架构师之路 — 部署架构 — 集群部署
- Python继承,子类调用父类的两(2)种方法
- 3.C#知识点:is和as
- 2019年那些匆忙入市的朋友现在都赚到钱了吗?
- 【C++】带空格输入
- 60-140-040-使用-DataSink-Data Sink 介绍
- linux内核虚拟内存之高端物理内存与非连续内存分配
- 【单目标优化求解】基于matlab被囊群算法(TSA)求解最优目标问题【含Matlab源码 1567期】
- redis 编译/调试
- 知识分享|日本面试常考问题+巧妙回答 ②
- c 语言编程规则,C语言编程之 makfile规则.doc
- 微信JS接口安全域名填写ip地址
- ubuntu使用gdown下载谷歌云盘(google drive)文件
- DWG文件如何转换为PDF黑白文件
- 太用力的人跑不远(转)
- 下载windows10.iso
- 关于.aspx与.aspx.cs的关系
- Linux中安装配置jdk
热门文章
- windows+vscode+夜神模拟器 flutter环境配置
- 重新编译存储过程(sp_recompile)
- 垃圾分类不用慌!AI智能垃圾分类来了!
- 零拷贝( Zero-copy )
- 毕业设计 python爬虫基础+数据分析
- java实现base64字符串转换成图片保存
- mysql触发器弊端_MySQL触发器的作用及弊端
- 【小学数学】假设法解鸡兔同笼
- 本人打算利用工作之余把一些好的游戏技术文章整理到(游戏技术论坛)(http://www.592xue.net/)
- python3 神经网络_如何在Python 3中欺骗神经网络