项目的Github地址:poetry

古诗词数据库

这个古诗词数据库是2017年从古诗文网爬取下来的,目前的数据总量虽不及古诗文网,但其诗词数据进行了一定的清洗整理和格式化,方便给需要的人做研究或者做些创意。这个古诗词数据库目前主要有73281首古诗词和3156个诗人的详细数据,并且已经应用在两个应用上:诗鲸Android客户端和诗鲸微信小程序。

数据说明

1.gushiwen 文件夹

这个文件夹下面是爬虫爬取的原始内容,其中 view 文件夹里面是一首首古诗,author 文件夹里面是一个个诗人,ju 文件夹里面是一些诗词名句。

2.image 文件夹

这个文件夹下面是是人的头像图片,image_xxx.jpg表示这是编号为xxx的诗人的头像URL地址。

3.data 文件夹

这个文件夹是目前最新的整理数据,其中子目录 poetry 里面是一首首古诗,poet 里面是一个个诗人,aio (all in one) 存放的文件是将诗人和诗词数据整理到一个文件的结果。

4.其他文件夹

其他文件夹中的内容是为了应用向下兼容而保留的旧版本的整理数据,可以不用关注。

数据结构

1.诗词数据

id是诗词在古诗文网上的索引(最近古诗文网改版了,已经不是用id了),name是诗词的名称,content是诗词的内容,dynasty是诗词的朝代,star是数据爬取时这首诗词的点赞人数,poet是诗人的信息,fanyi是诗词的注释和释义等数据,shangxi是诗词的赏析,about是关于这首诗词的其他内容,例如诗人的创作背景等,在古诗文网凡不是诗词释义和诗词赏析的内容都会归总到关于诗词的内容中。

{"about": "创作背景\n\n  唐玄宗天宝初年,李白xxx","content": "君不见,黄河之水天上来,奔流到海不复回。xxx","dynasty": "唐代","fanyi": "译文\n你难道看不见那黄河之水从天上奔腾而来,波涛翻滚直奔东海,从不再往回流。xxx","id": 7722,"name": "将进酒","poet": {"desc": "李白(701年-762年),字太白,号青莲居士,唐朝浪漫主义诗人,被后人誉为“诗仙”。xxx","id": 247,"image": "https://raw.githubusercontent.com/hujiaweibujidao/poetry/master/image/image_247.jpg","name": "李白","star": 0},"shangxi": "鉴赏\n\n  将进酒,唐代以前乐府歌曲的一个题目,内容大多咏唱饮酒放歌之事。xxx","star": 32615,"tags": ["乐府","唐诗三百首","咏物","抒情","哲理","宴饮"]
}
复制代码

2.诗人数据

id是诗人在古诗文网上的索引(最近古诗文网改版了,已经不是用id了),name是诗人的姓名,desc是诗人的简介,content是诗人的详细介绍,dynasty是诗人的朝代,star是数据爬取时这个诗人的点赞人数。

{"content": "轶事典故\n\n姓名由来\nxxx","desc": "李白(701年-762年),字太白,号青莲居士,唐朝浪漫主义诗人,被后人誉为“诗仙”。xxx","dynasty": "唐代","id": 247,"image": "https://raw.githubusercontent.com/hujiaweibujidao/poetry/master/image/image_247.jpg","name": "李白","star": 4895
}
复制代码

LICENSE

GNU General Public License version 3

Copyright (c) 2018 Javayhu. All rights reserved.

转载于:https://juejin.im/post/5ac0eb986fb9a028bb19224d

分享一个开源的古诗词数据库(约7w+古诗词/3k+诗人)相关推荐

  1. 计划实现一个开源的KV数据库——Simple DB

    实现一个开源KV数据库的想法来源于对目前项目中所使用的K-V数据库使用情况的不满意. 先介绍一下我们的目前项目,作为本文的背景: 较为底层的分布式运行平台,使用C/C++实现的Actor模型(异步消息 ...

  2. mysql数据库新建一个递增的_分享一个mysql实验—基于数据库事务隔离级别RR及RC的测试...

    概述 今天主要分享一个最近做的实验,主要是测试mysql数据库在RR和RC不同事务隔离级别下的表现. MySQL使用可重复读来作为默认隔离级别的主要原因是语句级的Binlog.RR能提供SQL语句的写 ...

  3. oracle数据库监听问题,分享一个有意思的Oracle19c数据库监听异常

    概述 今天主要分享一个最近排查的监听问题,还是有点意思的,一起来看看吧~ 环境:oracle19c 单实例 用plsql连接提示,这里排除防火墙.账号密码问题,连接字符串按监听文件格式写 1. 测试监 ...

  4. 分享一个开源的项目,数据结构和算法必知必会的50个代码实现

    数据结构和算法必知必会的50个代码实现 这个开源项目是有前Google工程师打造出来的,使用了c,go,java,python,php等很多中语言实现了一些数据结构和算法,对于喜欢算法的来说可谓是一个 ...

  5. 分享一个开源免费、目前最好的API接口管理平台----eoLinker

    一.概况 eoLinker 是目前业内领先.国内最大的在线 API 接口管理平台,提供自动生成 API 文档.API 自动化测试.Mock 测试.团队协作等功能,旨在解决由于前后端分离导致的开发效率低 ...

  6. 分享一个开源的QT的串口示波器

    直接来源 | 果果小师弟 逛github时看到这个QT的串口示波器,完全开源,支持串口.TCP.波形显示.通信协议.感觉很不错,跟以前分享的那个vofa+有点像.感兴趣的可以下载下来学习学习(文末附链 ...

  7. 分享一个开源的JavaScript统计图表库,40行代码实现专业统计图表

    这可能是史上最简单易用的开源统计图表绘制库了.柱状图,饼状图,点状图等等您能想到的类型全部支持. 这个开源库的官网:http://www.chartjs.org/ 直接看如何只用40行代码就实现专业的 ...

  8. 分享一个开源的Springboot博客系统,界面简洁精致,拿来即用

    文章目录 系统简介 主要技术与框架 环境设置 页面展示 项目待优化 获取方式 系统简介 本期给大家带来一款基于Springboot的博客系统. 博客系统通过从零开始搭建整个项目,会带你了解整个开发流程 ...

  9. 分享一个开源的番茄计时器应用『极简番茄』和 统计图的库

    http://www.eoeandroid.com/thread-312728-1-1.html 实现的功能: 急速模式: 启动番茄时自动锁屏,完成时自动亮屏,让您能专注于手中工作(需在设置中开启) ...

最新文章

  1. arial字体可以商用吗_每次做PPT都不知该怎么选字体?6种万能字体搭配组合送你...
  2. 可通过http获取远端服务信息_微服务基础——厉害了!API网关
  3. 上海网络推广为大家讲解细节标签能给网站带来的作用与效果!
  4. html 如何判断文本溢出,判断文本是否溢出
  5. SAP PP 中关于计划订单和生产订单的日期计算
  6. 汽车新零售转型之路怎么走?你需要知道这些
  7. poj1781In Danger(约瑟夫) 问题
  8. hdu-2612-Find a way(广搜,bfs)
  9. 一天一个小技巧(4)——利用Python和MATLAB进行图片二值化
  10. videojs--跨浏览器的HTML视频播放器(可自定义样式)
  11. 绘制函数z = x2 + y2所表示的三维网格图
  12. 两种excel 去掉公式保留数值的方法
  13. C#加载本地相对路径HTML页面
  14. iOS开发中UIImageView逆时针旋转,并得到旋转后的图片
  15. 职场,社恐的终极噩梦
  16. SCAU华南农业大学-数电实验-用74LS283实现2*4乘法器
  17. 实训五#5.5猫与餐厅的故事
  18. ArcGIS教程:ArcGIS中的报表
  19. 从一到无穷大 #2 优雅的感知与处理Elephant Flows
  20. 人工智能作为新一轮科技革命的核心驱动力量,深刻影响着人们的生活

热门文章

  1. 如何利用计算机打德文,电脑安装德语输入法的详细步骤
  2. PDS4格式文件读取与保存
  3. lumia 525 android 7.1,真神机!Lumia 520 吃上 Android 7.1
  4. php excel多级下拉菜单自动生成,Excel中任意多级下拉菜单的制作方法
  5. 秒拍恢复上架 一下科技CEO韩坤:重新出发 砥砺前行
  6. Flow Field的详解
  7. 装修房水电验收标准,水电验收注意事项
  8. lol排位服务器维护赢了没加分,★英雄联盟为何排位赢了不加分
  9. ElasticSearch 介绍、安装及简单使用
  10. 关于RTSP播放器EasyPlayer-RTSP如何对接无人机遥控器的问题分析