jieba 是基于Python的中文分词工具,安装使用非常方便。

传送门:

https://github.com/fxsjy/jieba

我们使用pip安装:

02

词云工具wordcloud

wordcloud库,可以说是python非常优秀的词云展示第三方库。词云以词语为基本单位更加直观和艺术的展示文本词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。

效果举例:

我们使用pip安装:

文本和图片准备

0

1

红楼梦.txt

为了让分词工具进行分析,我们下载红楼梦小说txt格式。为了方便,我们将红楼梦文档放在程序“fenci.py”所在目录“分词”下的txt文件夹里面:

0

2

背景.jpg

像上面的词云图的形状是一个鲸鱼,我们需要准备一个有图案的背景图,让最后的词云图贴合背景图案。

我们选用这张宝玉的美男子画像图作为背景图:

文件保存在程序当前文件夹的img目录下:

0

3

停用词.txt

在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为StopWords(停用词)。

我们从这个github网站上下载了分词文档

https://github.com/goto456/stopwords

但是,由于红楼梦有很多特殊的用词,比如“这会子”,"明儿"等等,大家可以选择自行添加一些停用词。比如我加了一些词:

我们把停用词放在words文件夹下面:

程序运行

大家可以在文末的最后阅读原文,去我的github主页上下载代码。这里只给大家演示程序运行结果。

我们将最大次数设置成500个,为了能让背景图案比较明显:

从结果看来,宝玉是当之无愧的主角。凤姐,贾母,王夫人等人戏份也不少。由于黛玉和林黛玉被分成了两个词,因此显得戏份很少,大家想想有没有办法解决这个问题?另外,我们可以看到“这会子”这个词出现频率也不低,从中可以一窥当时的方言的感觉。

有什么问题欢迎留言讨论~

参考:

https://zhuanlan.zhihu.com/p/28477688

python的小程序分析_Python小程序,红楼梦关键词分析相关推荐

  1. 红楼梦人物分析系统c语言,红楼梦人物分析.doc

    红楼梦人物分析 摘要:<红楼梦>是我国小说发展史上的艺术高峰,它不仅以情节的曲折紧张取胜,而且以细节描写的丰富.细腻.生动.深刻见长.其高度的写人艺术技巧更令人叹为观止.曹雪芹运用表现艺术 ...

  2. python红楼梦人物词频统计_用R进行文本分析初探——以《红楼梦》为例

    刚刚接触R语言和文本分析,为了将二者结合,试着对<红楼梦>进行分析,首先对<红楼梦>进行分词处理,并统计词频,同时画出标签云. 其实文本分析还可以分析其它很多东西,我的下一步打 ...

  3. python分析红楼梦中人物形象_红楼梦人物形象分析+赏析_作文

    红楼梦人物形象分析 + 赏析 贾迎春.出身有争议,因是作者多次删改未定稿所致.贾迎 春这个人,性格太懦弱,老实无能,又怕事.一味地退让,任人 欺侮,做诗猜谜也不如其他姐妹,确实没什么可圈可点的.东西 ...

  4. C语言红楼梦人物分析系统

    C语言红楼梦人物分析系统 程序设计题:红楼梦人物分析系统 出题人:薛景 面向专业:生物医学工程 难度等级:3 1 系统的基本功能 <红楼梦>是中国古典四大名著之一,其中人物关系错综复杂.耐 ...

  5. 机器学习日常练习——红楼梦作者分析(聚类)

    红楼梦作者分析(聚类) 实验要求 实验题目:<红楼梦>作者分析 实验目的 实验内容 资料下载 实验过程: 问题分析: 解决思路: 代码: 代码一: 出现的问题 文件编码问题 将红楼梦数据, ...

  6. 用R进行文本分析初探——以《红楼梦》为例

    原博地址:http://www.cnblogs.com/zzhzhao/p/5299876.html[侵删] 一.写在前面的话~ 刚吃饭的时候同学问我,你为什么要用R做文本分析,你不是应该用R建模么, ...

  7. python编写小程序实例_python小程序开发实例

    商品和服务质量,是用户最关心的,运营者要保证质量,并把用户的完整信息的质量传达给用户,将影响用户的留存与转化的. 再小的店也有自己的品牌!一张小程序码可以让消费者看到你店里的详细经营情况和折扣优惠卷, ...

  8. python实验数据预处理案例_Python数据分析小案例——红楼梦文本分析(一) 文本预处理...

    本文开始介绍一个简单的数据分析案例,分析红楼梦文本,本文主要内容是将红楼梦文本按照章节获取每一回的标题,字数,段落数并保存到csv中方便后续数据分析 红楼梦小说文本可以在这里下载 链接:https:/ ...

  9. 与python相关的爬虫工具_python小课堂|爬虫工程师必备的10个python爬虫工具!

    [摘要]在这个科学技术高速发展的时代,越来越多的人都开始选择学习编程软件,那么首先被大家选择的编程软件就是python,也用在各行各业之中,并被大家所熟知,所以也有越来越多的python学习者关注py ...

  10. python简单体育竞技模拟_Python程序设计思维练习---体育竞技分析-阿里云开发者社区...

    体育竞技分析:模拟N场比赛 计算思维:抽象 + 自动化 模拟:抽象比赛过程,自动模拟N场比赛,当N越大时,比赛结果分析越科学. 本次比赛规则:回合制,15分一局,先由一方发球,如胜利,则得1分并继续发 ...

最新文章

  1. php5.6.11编译安装报错configure: error: Don't know how to define struct flock on this system
  2. 行业观察 | 新一轮AI周期里,华为拿什么破解核心难题?
  3. 【转】Android应用开发allowBackup敏感信息泄露的一点反思
  4. the Open Source Community
  5. flash跨域访问解决办法
  6. P4309 [TJOI2013]最长上升子序列 平衡树 + dp
  7. 定时器驱动数码管c语言程序,74hc595驱动数码管时间程序
  8. 信息学奥赛一本通 1356:计算(calc)
  9. 视频+笔记+能够跑通的代码,《李宏毅机器学习完整笔记》发布!
  10. STM32F103:三.(1)步进电机
  11. inkscape生成g代码_UG NX车削加工编程实例,从创建车削加工到生成G代码,简简单单...
  12. 1环境-企业级 Hyper-v 群集部署实验方案
  13. 用户场景法,设计测试用例
  14. PaddlePaddle入门整理十:PaddlePaddle训练自己的数据集
  15. JS 播放语音,将文本转成语音播放
  16. python 自动登录股票,python2自动读取股票数据示例
  17. SQL-SQL函数(二)Scalar 函数
  18. python人工智能计算器_python游戏dnf_招募:基于python的召唤师全时段全技能(含均值AI)计算器全程测试......
  19. 我在上海赶飞机 出租司机给我上了一堂MBA课
  20. 技术文档的写作规范总结

热门文章

  1. Want to be happy? Be grateful - David Steindl-Rast
  2. 四面体 matlab,matlab生成四面体单元
  3. Win键失效,Win+L不起作用了
  4. P4850 [IOI2009] 葡萄干 raisins 题解
  5. 如何隐藏PickerView的两条线
  6. windows 2008 R2 断电进入修复模式,并且无法使用usb键盘鼠标的解决方法
  7. 北斗微信与服务器怎么联接,北斗卫星的导航服务全球性升级,手机怎样“连接”使用北斗导航?...
  8. 小新pro16独显版安装NVIDIA驱动
  9. VMware ESX Server常用命令行
  10. JPA/Hibernate 中@Formula的作用