泻药,我使用正则表达式和简单字符串匹配的组合在Python中解析文本。

约瑟夫海勒捕捉22是我最喜欢的小说。我最近读完了 ,喜欢整本书中语言的创造性使用和荒谬人物的互动。对于我的可视化类,选择文本作为我的最终项目“数据集”是一个简单的选择。该文有大约175,000个单词,分为42章。我在网上找到了这本书的原始文本版本并开始工作。

shiny在R中以交互方式可视化这些数据集。

原文链接:Python小说文本挖掘正则表达式分析案例​tecdat.cn

/> />

数据集

地中海旅行

/> />

这种可视化映射了整本书中提到的地中海周围位置的提及。

人物形象

/> />

该图基本上代表了书中提到不同字符的时间序列。

我将数据绘制为标准散点图,章节为x轴(因为它与时间相似),字符为离散y轴,垂直条为标记。

人物共同出现

/> />

用于构建此可视化的数据与前一个中使用的数据完全相同,但需要进行大量转换才能将其转换为可表示这些模式的形式。

聚类为此图添加了另一个维度。在整本书上应用分层聚类方案,以尝试在角色中找到社区。再次,使用章节(1表示现在,0表示不存在)和42维欧几里德距离用于使用完整链接AGNES算法对字符进行聚类。对不同聚类方案和距离测量的树状图进行人工检查发现,这是最“水平”,因为更频繁出现的角色占主导地位的方案最少。这是六个簇的树形图:

/> />

当用户选择通过聚类对图进行着色时,用于共享相同聚类的字符的共同位置的单元用唯一颜色填充,而显示来自不同社区的字符的共同位置的那些单元用灰色阴影。应该注意,聚类是在整个文本上执行的,而不是由应用程序的用户放大的章节。我觉得动态改变聚类会让人分心。

字母或频率排序将群集“爆炸”成无法识别的空间,但按群集排序会将它们带入紧密的社区,让观众也可以看到群集之间的某些交互。

我对共同位置的编码和应用于每个单元的阴影的映射肯定会引起争论,而其他聚类方法导致找到非常不同的社区。也就是说,从定性上讲,我花了很多时间用我自己的文本知识来评估结果,发现当前的实现比我测试的任何其他实现更令人满意。

我发现书中的每个主角在某些时候与几乎所有其他角色互动都非常有趣。我不会期望这么多重叠。与Les Mis相比,情节更加密集,我怀疑这是由于聚集的章节数量的10倍差异。

特色词

/> />

这个图可能是四个图中最常规的图,但可能显示了对文本的很多见解。

我可以选择为此可视化选择堆叠条形图或堆积区域图。我喜欢堆积区域图更好地显示单词突出的连续章节,但是承认当章节之间存在高度可变性时,三角形形式会扭曲关系。

结论

我在这个过程中学到了很多东西,无论是在使用方面,还是在shiny本身方面。

python设计及论文-python能否实现学术论文文本分析的功能?相关推荐

  1. 挑战杯论文Android,挑战杯学术论文作品.pdf

    挑战杯学术论文作品 AlwaysOnline 中国大学生手机消费特征和消费心理调查报告 中国大学生手机消费特征和消费心理调查报告 中中国国大大学学生生手手机机消消费费特特征征和和消消费费心心理理调调查 ...

  2. 学位论文是根,学术论文是叶

    关于硕士生毕业前是否将发文章作为学位申请的前置条件引起热议.随着清华大学新规出台,支持者,反对者都有,各说各的理,好不热闹.当然也不排除蹭热度的媒体或网评.清华毕竟是清华,其一举一动牵动全国高校,具有 ...

  3. 计算机学术引用论文,我国计算机领域学术论文引用中的马太效应——以《计算机学报》和《计算机研究与发展》为例...

    摘要: 引证是科学报酬体系的一部分,是科学家个人向他们前人智力付酬的一种"硬通货".国内对学术期刊论文引用的研究,通常认为引证中存在着马太-波敦克效应,即在引证时作者倾向于引用知名 ...

  4. latex怎么看论文字数_LaTeX | 为学术论文排版而生【公式篇】

    一步一坑,继续LaTeX系列的第三篇[公式篇],前面介绍过[入门篇]和[文本篇],新来的朋友们可以点击这里查看.在公式编辑方面,LaTeX具有独到甚至统治性的优势,大批用户投入LaTeX的怀抱.今天就 ...

  5. 【论文写作】图像分割学术论文中常用词汇记录

    养成良好的读论文记笔记习惯,记一些高级的词汇.表达,便于论文写作 学术论文用词 名词 connectivity patterns 连接模式 fashion 方式 preprocessing 预处理 p ...

  6. 论文写作-什么是学术论文

    1.学术论文是什么: 就是用系统的.专门的知识来讨论或研究某种问题或研究成果的学理性文章.具有学术性.科学性.创造性.学理性. 2.学术论文有什么用: 可以记录新的科研成果,本身就是学术研究的有效手段 ...

  7. 计算机专业论文题目学术性表达,新颖的计算机类学术论文选题 计算机类学术论文题目怎样拟...

    [100道]新颖的计算机类学术论文选题,每一个论文题目都是精选出来的,看了后定能知晓计算机类学术论文题目怎样拟等相关写作技巧,让计算机类学术论文写作轻松起来! 一.比较好写的计算机类学术论文题目: 1 ...

  8. python设计app_基于Python的电商导购APP设计与实现- CNKI

    Abstract:With the steady growth of China's economy, the price of IT products, 4G network and the pop ...

  9. python函数格式化输出唐诗《锦瑟》_Python文本分析案例:近体诗格律分析

    作者:长行 时间:2020.05.26 Github原文:Week-03/Example-0301 在这个案例中,我们将要实现近体诗格律的分析.具体的,我们从如下角度分析近体诗的格律: 诗句数量.诗句 ...

最新文章

  1. 【机器学习】太赞了!几行代码实现30多种时序模型预测
  2. 一名优秀的开发人员,空闲时间会敲代码吗
  3. ubuntu 系统分配固定 ip--
  4. python全栈开发内容_Python全栈开发之Day02
  5. magento2邮件调试方法
  6. 分布与并行计算—用任务管理器画CPU正弦曲线(Java)
  7. [大数据可视化]-saiku的源码包Bulid常见问题和jar包
  8. asp.net mvc webform和razor的page基类区别
  9. SpringMVC框架搭建( 使用Jar包搭建)
  10. 9-15 redis-trib构建集群
  11. 【文文殿下】[BZOJ4008] [HNOI2015] 亚瑟王
  12. 桌面怎么新建html文件夹下,创建文件夹的步骤 怎么往新建的文件夹里写东西呀?...
  13. 几个负载均衡软件比较(Haproxy vs LVS vs Nginx)
  14. astar算法c语言实,Astar寻路算法C++实现
  15. 我的世界java放大化是什么_我的世界:你玩过神奇的放大化种子吗?官方:这些东西非常吃资源...
  16. 图及其应用实验报告 c语言,图的应用 实验报告
  17. Android Bluetooth架构
  18. Linux python + selenium 以 kiosk模式打开Chrome浏览器 并 支持下载文件时询问下载路径
  19. kali2019安装netspeed教程
  20. 股票杠杆哪个平台好?具备的资质是怎么样的?

热门文章

  1. Parcelable与Serializable接口的用法和区别
  2. LINUX 操作记录到syslog,并发送到syslog服务器上
  3. leetcode 349. Intersection of Two Arrays
  4. Ubuntu17.10 下配置caffe 仅CPU i386可以直接apt install caffe-cpu,但是怎么运行mnist代码我懵逼了...
  5. Ruby on rails
  6. cordova:Error: Cannot find module '../cordova/platform_metadata'
  7. Vue开发跨端应用(四)electron发布web应用并打包app
  8. Java --Lamda表达式
  9. leecode第八十九题(格雷编码)
  10. 重载[] int operator[ ]( )