jieba用起来非常简单,短短几行代码就完成了分词工作(下图),可是...仔细一看发现哪里不对了

“段誉”作为一个姓名没有被单独分出来,而是和其他一些动词连在一起,另外也有一些角色名字被拆分成了两个甚至更多的单词,例如“神仙姊姊”被分成了“神仙”和“姊姊”两个词。

不过这也难怪,中文的灵活性太强,一个词往往有多层含义和多种用法,看来直接使用jieba分词还是会有不小的误差,我们得想办法来解决这个问题,不然会对分析结果造成干扰。

现在是不是有一种“我为刀俎,它为鱼肉”的感觉了。经过简单的数据处理,我们得到了每个人物的名字在小说中出现的频次,由于萧峰和乔峰是同一个人,为了方便统计将两个名字的出场次合并。

然后取出场率排名前30位的角色数据,用图表的形式展示出来。

其实《天龙八部》的中心思想就是“求不得”:

段誉不想学武功却练成了绝世神通

一心追求王语嫣最终美人对慕容复不离不弃

萧峰立志保卫大宋没想到自己居然是契丹人

决定与阿朱塞外牧马,然而造化弄人,心爱的人却死在自己手上

这里我们仅提取词长度不小于4的成语、俗语和短语进行分析。同时,考虑到某些人名(例如:上官婉儿、澹台灭明)等专有名词会对分析结果造成干扰,在分词取词的时候可以一并过滤掉,最终得到这样一份词语文件:

2.云图

对用词习惯的分析更倾向于定性分析,我们这里使用词云图来作展示,首先绘制《萍踪侠影录》的词云图。

我们可以看到在这篇小说中“微微一笑”、“哈哈大笑”、“大吃一惊”、“非同小可”等词语使用频率非常高,再来看另一部作品《女帝奇英传》,词云图如下:

进群:125240963   即可获取数十套PDF哦!

如您对本文有疑问或者有任何想说的,请点击进行留言回复,万千网友为您解惑!

python 小说分析_谁还没看过几本金庸小说?用Python分析一下当年最爱看的主角是谁...相关推荐

  1. 第46届icpc 沈阳 J-Luggage Lock(思维 + 爆搜 / 队友玄学出法, 还没看懂)

    第46届icpc 沈阳 J-Luggage Lock(思维 + 爆搜 / 队友玄学出法, 还没看懂) 题目来源:第46届icpc 沈阳 J-Luggage Lock 题意: 给出两个四位数的密码锁a和 ...

  2. 为什么linux图形引擎那么丑,为什么你的技术文章配图总是那么丑?那是你还没看过这篇教科书般的技术文章配图指南!...

    原标题:为什么你的技术文章配图总是那么丑?那是你还没看过这篇教科书般的技术文章配图指南! 这可能是一篇很多博客的读者都期待的文章,我最终还是决定说一说『如何为技术文章配图』这一话题,过去的几年一直都有 ...

  3. 支付宝的架构到底有多牛逼?还没看完我就跪了!

    自 2008 年双 11 以来,在每年双 11 超大规模流量的冲击上,蚂蚁金服都会不断突破现有技术的极限.2010 年双 11 的支付峰值为 2 万笔/分钟,到 2017 年双 11 时这个数字变为了 ...

  4. 支付宝的架构到底有多牛逼!还没看完我就跪了!

    点击上方"方志朋",选择"设为星标" 回复"666"获取新整理的面试资料 来源:uee.me/cFgQC 自 2008 年双 11 以来,在 ...

  5. 阿里大佬告诉你,支付宝的架构到底有多牛逼!还没看完我就跪了!

    自 2008 年双 11 以来,在每年双 11 超大规模流量的冲击上,蚂蚁金服都会不断突破现有技术的极限. 2010 年双 11 的支付峰值为 2 万笔/分钟,到 2017 年双 11 时这个数字变为 ...

  6. 为什么叫python编程-月薪上万的Python编程,为什么你还没入门就放弃了?

    "大家都是怎么学Python 的?我学了一个月,感觉自己怎么学都学不进去啊,还是一脸懵--学习前我有做过规划,现在连入门都不算,我应该怎么办啊!!!求大神给一个学习思路!求大神讲解入门要重点 ...

  7. 支付宝架构有多牛?还没看完我就跪了...

    点击上方"Java基基",选择"设为星标" 做积极的人,而不是积极废人! 每天 14:00 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java ...

  8. VVC代码阅读 xCheckModeSplit()函数 (中间CABAC还没看)最后代码还没看完

    //当前测试qpconst int qp = encTestMode.qp;//当前sliceconst Slice &slice = *tempCS->slice;// 之前的QPco ...

  9. python 帮助台_想知道拉夫堡大学和Queen mary 的商业分析硕士好吗,学得东西有没有用,实不实用?...

    先讲大学 拉夫堡大学本科在英国的口碑还不错. 但是硕士课程,特别是伦敦校区的课程,问题会比较多. 我有收到过一个拉夫堡大学伦敦校区在读学生的咨询,想让我推荐一个英国的律师给他. 他因为不满学校教学质量 ...

  10. python计算图解_图解NumPy,看这一篇就够了!

    晓查 编译整理 量子位 报道 | 公众号 QbitAI NumPy是Python的最重要的扩展程序库之一,也是入门机器学习编程的必备工具.然而对初学者来说,NumPy的大量运算方法非常难记. 最近,国 ...

最新文章

  1. 适用于CUDA GPU的Numba 随机数生成
  2. java web调用c_Java调用C/C++程序
  3. python【数据结构与算法】 python3 deque模块(双端队列)
  4. C++ 自由存储区是否等价于堆?
  5. 前端要给力之:代码可以有多烂?
  6. 链表python笔试题目_python经典面试算法题1.4:如何对链表进行重新排序
  7. Lua中的操作系统库
  8. 3dtiles测试数据下载
  9. Spark在Ubuntu中搭建开发环境
  10. 27.crontab
  11. mysql中的分隔符有哪些_MySQL中的分隔符
  12. 工作效率低,怎么办?
  13. fullcalendar 课程表 js 插件 日程安排操作 js
  14. 计算机学院早操规定,宜宾学院早操管理规定
  15. ps cs6如何破解
  16. iPhone自定义手机铃声完整版教程
  17. 动态html函数的写法,如何将html div id的动态传递给js函数
  18. ASCII 控制码说明
  19. VAO 与 VBO 的前世今生
  20. 行人重识别 度量学习

热门文章

  1. mandriva csdn_与Google的双重开源Mandriva告别,还有更多新闻
  2. 2016域服务器自助修改密码,自助密码重置工具
  3. freyja 将引入另外一项功能大幅提高服务器性能
  4. 腾讯云服务器-公网IP与域名绑定
  5. 芝麻信用分有哪些计算维度?关于大数据风控的87个问题
  6. linux瘦身软件下载,Linux系统瘦身裁剪 ——测试版
  7. css 实现导航菜单
  8. mysql不等于多个数怎么写_mysql不等于符号怎么写
  9. 以史为镜——台积电发展史
  10. 数据分析案例(6)淘宝电商数据客户价值分析