Begin

上次用C#把《全唐诗》和《唐诗三百首》整理成为QData格式之后,就开始进行各种分析…

详细内容可以看看上次这篇文章,《用C#来学习唐诗三百首和全唐诗》

接下来讲一下分析的内容,由于笔者不是很懂文学和大数据统计什么的,所以只好随便分析一通,首先分析的有:标题、作者、单字分析、还有诗句字数(也就是“五言”、“七言”)

标题分析

标题分析就是分析有多少首诗采用了某一个标题啦~

首先是《唐诗三百首》

从统计可以看到《子夜四时歌》出现的次数是最多的= =.. 虽然不懂是什么,但觉得蛮厉害的

接下来看看《全唐诗》的分析结果

哇,这下可就厉害了,我的《全唐诗》数据文件中共有42904首诗,虽然不全,不足以称之为“全”唐诗,但是也胜在基数之大。

从分析结果看到,排名第一的标题是《句》,共有437首诗采用这个标题,看起来就很非主流的一个标题居然深受唐朝文人骚客的喜爱;排名第二的是《古意》,不过这个和第一名的差距可就大了,总共只有39首,可不知道这个”古意“是怀古之意还是古人之意。

作者分析

作者分析就是统计每个诗人总共写了多少首诗,以及总字数。

先来看看《唐诗三百首》的结果

嗯,不错,杜甫摘取桂冠。不过《三百首》毕竟是小样本,真正的还得看大块头的。

惊呆了,杜甫的第一名被白居易抢走了,而且差距有点大。

在《全唐诗》中,白居易2643首作品获得”写诗达人“称号= =.. 他写了《全唐诗》中6%以上的诗,不过为何白居易在《唐诗三百首》里只有6首作品呢?笔者大胆猜测《唐诗三百首》选入的诗可能是比较high bigger的,而白居易的诗词以通俗易懂闻名,”邻家的老奶奶都能看懂“,可能是这个原因导致了《三百首》中收录的不多。

再看看第二名杜甫,收录进《全唐诗》的有1151首诗,是以和白居易共同占据了唐朝近一成的古诗量,在唐朝这个文化高度繁荣鼎盛的朝代能有这样的成就实属难能。

第三名就是大名鼎鼎的诗仙李白了,总共897首诗,是以既有数量亦有质量,如果李白看到这里,会不会突然来一句”仰天大笑出门去“呢..

呃,接下来第四名居然是”佚名“,看来唐朝写诗的人实在太多了,不知作者名的唐诗竟然有842首之多。

嗯,第五名是齐己,表示比较陌生,笔者读书太少了..

紧随其后的分别是刘禹锡、元稹、李商隐等。

笔者特别喜欢元稹的一首诗:

离思五首·其四

曾经沧海难为水,除却巫山不是云。
取次花丛懒回顾,半缘修道半缘君。

关于作者分析的,在本文中就到此为止了。

单字分析

单字分析便是分析每个字出现的次数以及所占的比例。

先看《三百首》中的结果

《唐诗三百首》中共有 23719 个字,在去除重复之后剩下 2511 字。

可以看到,使用得最多的这些字都是我们平常很常见的字,所以古人虽然满肚子墨水,但是用的字词也是最平常不过的。果然印证了一句话”艺术来源于生活..“

出现频率最高的前四名分别是”不“、”人“、”山“、”无“。

再来看看《全唐诗》的情况。

《全唐诗》中共有 3163391 个字,去除重复之后剩下 7543 字。

《全唐诗》里的字果然和《唐诗三百首》不是同一个数量级的。

不过,不知道你们有没有发现,数量最多的前四个字,和《唐诗三百首》里的是一样的,连顺序也是一样的,都是”不“、”人“、”山“、”无“。(这可以说是小样本预测总体情况吗?..

还有一个现象,出现最多的字里面,多是”不“、”无“这样具有否定意义的字,为什么否定意义的字占得最多呢,对此笔者专门请教了文学院专业的同学,根据她给的专业解释,大概可以总结为以下几点:

  1. 唐朝虽然繁荣昌盛,但是极盛时期占整个唐朝历史并不多,作为文人墨客,大都是忧国忧民,”先天下之忧而忧“

  2. 消极的情绪可以给人带来灵感,诗人官场失意、怀才不遇,这时壮志难酬,作为文人,只能用墨字抒发自己的忧愁了。

嗯,我觉得也是,一个人的生活如果波澜不惊,一帆风顺,那他怎么会产生丰富的情感,就如南唐李后主李煜,大家都道他文采非凡,可是他许多惊艳世人的作品都是在亡国之后被宋主赵匡胤俘虏软禁时创作的。

五言七言分析

文章的最后贴出这个结果,其实应该也没什么意义的,就是统计诗句的长度。

《唐诗三百首》

《全唐诗》

对于诗句长度,我只是简单的做了数字-汉字的转换,比如”17“转换为”一七“,所以看起来会比较别扭,不过因为不知道这个结果有什么可以分析的,所以未加优化。

以大数据眼光欣赏唐人文墨(一)相关推荐

  1. 以大数据眼光欣赏唐人文墨(二)代码实现

    Begin 继上次对唐诗三百首和全唐诗四万多首诗进行分析之后- 详细内容可以看看上次这篇文章,<以大数据眼光欣赏唐人文墨(一)> 这篇文章来讲讲具体的代码实现,本项目全部采用C#编写. 软 ...

  2. 第一家关店的盒马鲜生,大数据眼光看新零售的转型之路

    4月30日,盒马鲜生宣布昆山新城吾悦广场店,将于2019年5月31日起停止营业.从2016年初开出第一家店一年半的时间盒马鲜生全球门店64家,覆盖14个城市.据华商韬略的分析称"随着模式的日 ...

  3. 大数据颠覆赛场 带来更佳体验

    近日,主题为"赛场内外大数据 商业变革芯洞察"的英特尔体育行业与大数据技术应用媒体沟通会在北京举办,此次大会主要是为解析体育领域大数据的创新应用模式.进一步挖掘和验证大数据推动社会 ...

  4. 堵住大数据“窃密通道”刻不容缓

    文章讲的是堵住大数据"窃密通道"刻不容缓,大数据模糊了涉密与非涉密数据的界限,颠覆了数据垃圾无秘密的传统认识,打破了以客观存在为基础的定密习惯.因此,稍有疏忽便有可能引发泄密事件, ...

  5. 大数据时代下的新生态、新洞察、新趋势 | 神策 2019 数据驱动大会

    10 月 22 日,以"矩•变"为主题的神策 2019 数据驱动大会在北京维景国际大酒店顺利举行,来自全球大数据各大行业的领袖人物聚首北京,融合国际前沿技术与行业实践,深入探讨大数 ...

  6. 比Hadoop快至少10倍的物联网大数据平台,我把它开源了

    作者 | 陶建辉 转载自爱倒腾的程序员(ID: taosdata) 导读:7月12日,涛思数据的TDengine物联网大数据平台宣布正式开源.涛思数据希望尽最大努力打造开发者社区,维护这个开源的商业模 ...

  7. 人工智能、大数据的广泛应用,算法推荐如何守好边界

    来源:人民数据 本文共2000字,建议阅读5分钟 人工智能.大数据的广泛应用,给互联网平台带来了自动化的算法技术. 人工智能.大数据的广泛应用,给互联网平台带来了自动化的算法技术.一方面,互联网平台利 ...

  8. 独家 | 零售业中的惊涛骇浪——人工智能、机器学习和大数据

    作者:Prannoiy Chandran 翻译:李润嘉 校对:丁楠雅 本文约5600字,建议阅读15分钟. 本文教你如何利用人工智能和机器学习来提高零售业的效率和顾客参与度. 时尚是一门富有魅力的生意 ...

  9. 构建未来情报体系—— AI及大数据时代情报分析人员的战略价值

    知远战略与防务研究所 沐俭/编译 来自:美国战略与国际问题研究中心网站 [知远导读]本篇推送编辑节选自美国战略与国际问题研究中心(CSIS)技术与情报专项研究小组撰写的一篇利用新兴科技提高情报分析人员 ...

最新文章

  1. 显卡暴涨,这我万万没想到啊
  2. Phone 3rd Recovery
  3. wxWidgets:wxList< T >类模板的用法
  4. 对文本的内容进行排序
  5. oracle ebs mom,OracleEBS-OAF开发笔记
  6. python内存管理_Python内存管理(一):预备知识
  7. iOS开发UI篇—懒载入
  8. HBase之HRegionServer处理put请求
  9. kafka配置文件server.properties
  10. sql2012 数据库连接错误
  11. BizTalk Server 2010新功能介绍(四):基于安全连接的FTP适配器
  12. HTML5 开源游戏引擎 LayaAir
  13. Android Key Hash的生成
  14. python水仙花数的代码_Python水仙花数的编程代码写法
  15. 分享DXperience免费汉化下载
  16. 华为P30 HL2ELLEM VER.A手机图纸
  17. Google 学术搜索(Google Scholar)使用技巧
  18. 联想笔记本怎么进入pe系统_图解联想G40-30(N2840)笔记本是怎么进入pe设置U盘启动的...
  19. 新司机的黑裙战斗机 篇四:新司机的黑群晖指北—软件篇(下)
  20. 【模拟电路】常用的DC-DC电源电路图

热门文章

  1. 2021年全球飞机维护、维修和运行收入大约93440百万美元,预计2028年达到116920百万美元,2022至2028期间,年复合增长率CAGR为3.5%
  2. 干法读书心得:第一章 努力工作的彼岸是美好人生
  3. I3C协议Single Data Rate(SDR)模式研读(六):通用命令代码(CCC)
  4. [转]Google抛弃了了SOAP API,浮想联翩
  5. Ubuntu linux和android上安装使用obfsproxy给ssh加速
  6. Python搭配VSCD学习手册
  7. 没有信用卡如何在iTunes注册帐号?
  8. linux实验报告实验二,Linux实验报告 第二章
  9. http://blog.163.com/ecy_fu/blog/static/4445126200921512556887/
  10. 图形界限命令在命令行输入_CAD图形界限命令Limits使用方法详解