python唐诗分析综合_Python利器之胎教《唐诗三百首》文本分析
事情是这样的,你们听我讲:
有一天,孕妈妈在家庭群里对准爸爸说,在某猫上买本《唐诗三百首》吧,每天给宝宝读一首唐诗,作为胎教。有图有真相:
作为好吃懒做的准爸爸,听到这个消息的瞬间,表情是这样的:
准爸爸马上在网上找资料,不料看到了一个相关问题:为何胎教要听莫扎特,小朋友反而要听儿歌呢?
2014年,美国权威的神经脑科学家约翰·梅迪纳撰文称,尚没有任何科学证据表明莫扎特音乐对促进胎儿大脑发育有任何作用。约翰·梅迪纳指出,子宫最大的好处是避免了各种刺激:黑暗、湿润、温暖、坚固、安静的环境为胎儿早期大脑发展提供了最佳环境。
其中有一句直击心灵:他对孕期胎教的建议是,请保持安静,宝贝正在发育。
当准爸爸把这么经典的结论分享给孕妈妈时,孕妈妈的一个眼神,把结论瞬间击垮。
该读的唐诗还是要读,孕妈妈听音乐、听唐诗解读开心了,心情舒缓,胎儿自然会受益。
你敢说不是吗?(@^_^@)
那《唐诗三百首》到底在讲什么的?
《唐诗三百首》是一部流传很广的唐诗选集。唐朝(618年~907年)二百八十九年间,是中国诗歌发展的黄金时代,云蒸霞蔚,名家辈出,唐诗数量多达五万余首。
在Github上找到一些古典中文的语料库:rime-aca/corpus,作为本次分析的文本库,对它进行词频分析。下图是部分诗词截图:
利用“结巴分词”库对三百多首唐诗进行处理,“结巴”中文分词组件(fxsjy/jieba)支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
本例采用精确模式:
# encoding=utf-8
# 导入所需的开发模块
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
import matplotlib.pyplot as plt
import jieba
import jieba.posseg as pseg
from PIL import Image
import numpy as np
stopwords = []
# 中文分词处理
def processChinese(text):
seg_generator = jieba.cut(text)
seg_list = [i for i in seg_generator if i not in stopwords] # 排除stopwords
seg_list = [i for i in seg_list if i != '\n'] # 排除换行
seg_list = r' '.join(seg_list)
return seg_list
def main():
# 读取文本
text = open('poem.txt', encoding = 'utf-8').read()
# jieba分词
text = processChinese(text)
# Generate a word cloud image
fontpath ='./msyh.ttf'
wordcloud = WordCloud(font_path = fontpath,background_color = 'white',margin = 10, width = 1600, height = 900, max_words = 500, min_font_size = 20,max_font_size = 300, random_state = 42).generate(text)
# Display the generated image:
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
执行后,可得词云:
300多首唐诗中,出现的高频词是:
⎡何处⎦、⎡万里⎦、⎡不见⎦、⎡不知⎦、⎡昨夜⎦、⎡明月⎦、⎡将军⎦、⎡不得⎦。
准爸爸突然一脸懵逼,这么多不明确高频词,该如何跟宝宝讲解。
准爸爸再次分析其中的“二字”、“三字”高频词:
“三字”高频词是:
⎡君不见⎦、⎡后庭花⎦、⎡黄鹤楼⎦、⎡行路难⎦、⎡二十年⎦、⎡何处寻⎦、⎡老江湖⎦、⎡凤凰池⎦。
三百多首唐诗中,排名前20的作者分布如下,其中,诗仙李白、诗圣杜甫排名前二,人称“大李杜”,“李商隐”和“杜牧”人称“小李杜”。
天啊,原来唐朝的时候,就有人搞组合了,而且关系还不一般,李白与杜甫的友谊到底是怎样的?网上竟然还有人爆出:
准爸爸该怎么向宝宝解读“大李杜”的关系呢...
嗯?呢!他们其实是好知己,直到李白写了另外一首诗《赠汪伦》...
关系就变得更加错综复杂了...
300多首唐诗中,诗体分布如下:
五言律诗、七言律诗、七言绝句占前三。
绝句和律诗,是按照严格的格式和规则写成的诗歌,字数、行数、句式、音韵都有严格的规定。律诗格律严格,篇有定句(每首八句),句有定字(五字或七字),字有定声(平仄相对),联有定对(中间两联对仗)。
诗歌具有音乐美,节奏感强,准爸爸向宝宝更应该传达的是这种韵律,以及如何遣词造句,创作诗词歌赋。如果太过具化某首诗词,讲解某一个故事,或某一个小场景,翻译后也就失去了那种韵味了。
如何进一步分析《唐诗三百首》呢?
我们以李白代表作之一《月下独酌》为例:
读过的朋友都知道,古诗中描写了诗人在月夜花下独酌,无人亲近的冷落情景。诗人运用丰富的想象,表现出由孤独到不孤独,由不孤独到孤独,再由孤独到不孤独的一种复杂感情。
整体来看,是首悲情诗。
我们可以利用腾讯文智中文语义平台(腾讯文智中文语义平台-首页)作进一步分析。
腾讯文智自然语言处理(Natural Language Processing)基于并行计算、分布式爬虫系统,结合独特的语义分析技术,一站满足NLP、转码、抽取、数据抓取等需求。基于文智API可实现搜索、推荐、舆情、挖掘等功能。
我们在官网进行情感分析体验:
经过对文本的分类分析:文本数据中有24.8%属于美食(美酒也是美食吧),有24.8%属于军事;
情感分析结果中:87%是负面的情绪,李白的孤独感油然而生;
关键字提取:对影、花间、独酌。
$ pip3 install qcloudapi-sdk-python
qcloudapi-sdk-python 是为了让 Python 开发者能够在自己的代码里更快捷方便的使用腾讯云的 API 而开发的 SDK 工具包。
#!/usr/bin/python
# -*- coding: utf-8 -*-
# 引入云API入口模块
from QcloudApi.qcloudapi import QcloudApi
module = 'wenzhi'
# 对应的接口ActionID
action = 'TextSentiment'
config = {
'Region': 'gz',
'secretId': '***yourSecretID***',
'secretKey': '***yourSecretKey***',
'method': 'post',
}
params = {
'content': '花间一壶酒,独酌无相亲。举杯邀明月,对影成三人。月既不解饮,影徒随我身。暂伴月将影,行乐须及春。我歌月徘徊,我舞影零乱。醒时同交欢,醉后各分散。永结无情游,相期貌云汉。',
'type': 4,
}
try:
service = QcloudApi(module, config)
# 生成请求的URL,不发起请求
print(service.generateUrl(action, params))
# 调用接口,发起请求
print(service.call(action, params))
except Exception as e:
import traceback
print('traceback.format_exc():\n%s' % traceback.format_exc())
从service.call方法的返回结果,即可得分析结果。
通过文智平台,我们可对文本数据做多方面的解读。
写了这么多,孕妈妈终于发话了:
这篇没有过千赞,老老实实过来念唐诗!!!
看完点个赞呗!
参考:
Python中文分词组件:结巴分词fxsjy/jieba
python唐诗分析综合_Python利器之胎教《唐诗三百首》文本分析相关推荐
- python+jieba分析唐诗三百首
python+jieba分析唐诗三百首 代码及源文件地址:poem_300 代码保证符合命名规范.遵循PEP8规则.导包顺序清晰.尽量做到复用性和不罗嗦 记得修改文件路径哟(^U^)ノ~YO 如果有帮 ...
- 【Pygame小游戏】史上最全:《唐诗三百首》合集,每一首都是精华,果断收藏~(学诗+锻炼记忆+Python诗句填空小程序上线啦)
前言 岁岁年龄岁岁心,不负时光不负卿 哈喽!我是你们的栗子同学,今天给大家来点儿有趣的-- 有句话说:"读史使人明智,读诗使人灵秀."唐诗本来就是中国文化的绚丽瑰宝,是每个人都 ...
- python爬取唐诗三百首
python讨论qq群:996113038 导语: 最近一直在写爬虫,写过一些爬取"妹子图","小视频"之类的爬虫,但是我想了想.咱们公众号虽然是个技术类公众号 ...
- Python小工具——唐诗三百首朗读
Python小工具--唐诗三百首朗读 工具简介 系统语音朗读唐诗三百首,可自己选择要朗读的唐诗,可搜索查找唐诗进行朗读,可用于幼儿园或小学生熟悉唐诗,积累文学素养. 工具界面 1.打开工具 可查看当前 ...
- HTML写一首简单的居中唐诗,《唐诗三百首》最简单一首诗,只28字却成压轴之作,誉为诗中绝品...
品味唐诗对于当今的现代人来说,是一种精神享受,一种消遣休闲.在品读诗的时候,我们无须了解更深的背景,无须探究隐藏的意义.只要用心去阅读就能感受诗的无穷魅力,让压抑的情感随之抒发,让荡漾的心潮随之起伏, ...
- python唐诗分析综合_Python爬虫抓取唐诗宋词
一 说明 Python语言的爬虫开发相对于其他编程语言是极其高校的,在上一篇文章 爬虫抓取博客园前10页标题带有Python关键字(不区分大小写) 的文章中,我们介绍了使用requests做爬虫开发, ...
- python怎么处理数据_python中scrapy处理项目数据的实例分析
在我们处理完数据后,习惯把它放在原有的位置,但是这样也会出现一定的隐患.如果因为新数据的加入或者其他种种原因,当我们再次想要启用这个文件的时候,小伙伴们就会开始着急却怎么也翻不出来,似乎也没有其他更好 ...
- python数据分析可视化实例_Python数据分析及可视化实例之基于Kmean分析RFM进行用户关怀...
系列文章总目录:Python数据分析及可视化实例目录 数据集下载 Python数据分析及可视化实例之全国各城市房价分析(含数据采集) Python数据分析及可视化实例之帝都房价预测 Python数据分 ...
- python 取array并集_Python内置数据结构原理与性能简易分析
ins @ngladc 文末左下方阅读原文指向了本人博客链接,不含广告.参考资料中的相关链接,可以在博客文章的最下方获取.推荐苹果手机用户使用浅色模式观看. 前言 对于一些算法题,可以使用Python ...
最新文章
- jquery file upload ajax上传图片 简单使用
- c语言中continue语句的作用是什么
- linux安装nord,卸载nord源
- Spark 性能相关参数配置详解-压缩与序列化篇
- 接地气的大数据来了:如何预报雾霾
- 计算机毕业设计Java-超市会员积分管理系统
- 游戏史上80重要创新(原资料来自17173)
- 【读书笔记】两个天才 发挥孩子的创造力 4岁以上 蒲蒲兰绘本
- 微信抢抢票服务器,已有多人被坑!抢票“加速包”慎用!
- 巴拿赫空间上的复变函数
- 等待事件统计视图 | 全方位认识 sys 系统库
- 反演地表温度空白或者是DN值无穷大+公式
- 电脑游戏怎么转移新电脑,换新电脑如何迁移游戏
- DeiT:Training data-efficient image transformers distillation through attention
- 携程手机端网页设计效果图
- 《python数据分析与挖掘》-步骤
- AcWing1293. 夏洛克和他的女朋友
- 啧啧啧……JAVA你看看你……
- 图片分享应用Pinterest上市首日大涨28% 市值超120亿美元
- 厂房规划物流仿真之sketchUP(SU)