python唐诗分析综合_全唐诗分析程序
全唐诗分析程序
这个程序最初的诞生是为了写微信公众号的两篇文章,那两篇文章的也大致讲解了程序的原理和流程。 因此,在使用程序之前,强烈建议您先读这两篇文章:
相应的,程序也主要有两个方面的功能:
分析词频和词向量,对应第一篇文章
构建诗人之间的引用关系,对应第二篇文章
master分枝仅支持python3。python2分枝(感谢网友carryme9527的工作,这个分枝主要是他的功劳)则支持python2。 程序主要有两个目录:
data目录,用于存储全唐诗和CBDB数据库
html目录,存储最终的社交网络关系网页
程序在运算过程中会dump一些中间运算结果,并存储在save目录(如果不存在会自动创建)中。
由于CBDB数据库很大,有400+M。github不允许上传这么大的文件,请大家自行去CBDB官网下载单机版数据库,并且以cbdb_sqlite.db为文件名存储在data目录下。
依赖库
程序依赖了两个python库
pip3 install thulac
pip3 install gensim
其中thulac用于分词,gensim用于word2vec. 这两个库只用于第一篇文章的分析。如果您只关心如何构建诗人关系网络,那么不需要安装这个两个库。
基本用法
对于普通用户来说: 直接用浏览器打开html目录下的网页文件,就可以在浏览器中观察网络结构了,并且可以随意拖动和放大,很有意思。
对于程序员来说:
运行python3 word_level_analyzer.py来复现第一篇文章的结果
运行python3 construct_poets_network.py来构建社交网络,并将运行结果存储在save目录。
运行python3 visualize_poets_network.py来构建出显示社交网络的网页,并将结果存储在html目录。
路线图
我后续还会对古典文献进行一些分析,并将更新过的代码及时的push到这个库中。欢迎大家关注我的微信公众号:mrqianjinsi
python唐诗分析综合_全唐诗分析程序相关推荐
- python 情感分析实例_情感分析实例
以下的样本代码用Pyhton写成,主要使用了scrapy, sklearn两个库. 所以,什么是情感分析(Sentiment Analysis)? 情感分析又叫意见挖掘(Opinion Mining) ...
- 电路分析导论_生存分析导论
电路分析导论 In our extremely competitive times, all businesses face the problem of customer churn/retenti ...
- 病毒分析系列 _ 病毒分析环境搭建
前言 通常进行病毒分析,需要有一个配置好的病毒分析环境,fireeye之前也出过配置好的虚拟机,但是虚拟机安装过程很慢,不如我们自己配置一个,下边对虚拟机的配置和病毒分析的基本原则进行展开说明,打好病 ...
- rda冗余分析步骤_群落分析的典范对应分析(CCA)概述
典范对应分析(CCA)与去趋势典范对应分析(DCCA)概述典范对应分析(canonical correspondence analysis,CCA)是单峰约束排序方法,是对应分析(CA)与多元回归的结 ...
- eds能谱图分析实例_成分分析的四大神器—XRF、ICP、EDX和WDX
成分分析技术主要用于对未知物.未知成分等进行分析,通过成分分析技术可以快速确定目标样品中的各种组成成分是什么,帮助实验人员对样品进行定性定量分析,鉴别等.今天,小析姐就给大家介绍四种成分分析的常见设备 ...
- python决策树代码解读_建模分析之机器学习算法(附pythonR代码)
0序 随着移动互联和大数据的拓展越发觉得算法以及模型在设计和开发中的重要性.不管是现在接触比较多的安全产品还是大互联网公司经常提到的人工智能产品(甚至人类2045的的智能拐点时代).都基于算法及建模来 ...
- python空间分析库_空间分析:5-1.空间分析库PySAL的使用
Pysal与geoda非常相似,一个通过写脚本来实现空间分析,一个通过软件操作来实现空间分析. Pysal的官网对于自己的介绍是,开源.跨平台的地理空间数据分析库. Pysal能干什么? 空间分析+可 ...
- python绘制社会关系网络图_文本分析之制作网络关系图——Python
今天给大家带来我一个脚本,用来分析社会网络关系. 这个图我没有用到gephi或者其他的工具,是我用python纯脚本运行出来的.简单的实现了封装,大家有兴趣可以下载下脚本,运行下. 原理知识 我就简单 ...
- python股票分析论文_股票分析与资产组合(python)
本文利用python3.4进行分析,对财通福享,银华鑫盛和国金鑫新三支股票在2017的情况进行解读,并优化资产组合. 首先导入python相关的库,这里用tushare作为获取数据的入口. impor ...
最新文章
- SQLite与pandas
- 二值网络--TBN: Convolutional Neural Network with Ternary Inputs and Binary Weights
- linux shell which 和 whereis 区别
- 对 Jquery 表单插件 Form.js 2.12 的调整
- 【Python基础】Python十大文件骚操作!!
- oracle sys可以登录,system权限不足,解决方法
- Spark自定义排序
- Delphi XE 10.2.3如何添加PDF阅读器组件
- 关闭Word提示无法将更改后的内容保存到共用模板
- cacti监控linux和windows磁盘io,为CactiEZ(或者Cacti)增加监控磁盘IO功能
- Scrum敏捷开发模式介绍与实践
- 图的深度优先遍历和广度优先遍历算法流程图
- 永恒之塔总是服务器未响应,《剑网3》《永恒之塔》怀旧服刚开上演“冲级热”,八月怀旧游戏集体搞事...
- 谨以此写下本人安装riscv的全过程 简单易懂!!(本人环境是在ubuntu18.04中)
- 事大发了!小助理告诉我:小伙伴21天斩获字节offer的关键竟是这份面试题!
- [翻译]Reactor Netty参考指南 - 8.UDP客户端
- Windows屏幕工具(屏幕截图、贴图/屏幕取色/截图文字、表格识别/截图翻译、GIF录屏、GIF压缩)
- kafka connector 使用总结以及自定义connector开发
- 【EasyClick iOS免越狱常见问题】iPhone重启后无法启动代理程序
- Java多线程2.3.生产者与消费者之间的关系2