具体步骤:

使用爬虫爬取全唐诗,总共抓取了71000首。

#使用urllib3的内置函数构建爬虫的安全验证,来应对网站的反爬虫机制

http = urllib3.PoolManager(

cert_reqs= 'CERT_REQUIRED',

ca_certs=certifi.where())

#爬虫的目标网站

r = http.request( 'GET', url)

#爬虫获取的html数据

soup = BeautifulSoup(r.data, 'html.parser')

content = soup.find( 'div', class_= "contson")

使用正则表达式对爬取的数据进行处理

p1 = r"[u4e00-u9fa5]{5,7}[u3002|uff0c]"#[汉字]{重复5-7次}[中文句号|中文逗号]

pattern1 = re.compile(p1) #编译正则表达式

result = pattern1.findall(poemfile) #搜索匹配的字符串,得到匹配列表

对诗词正文进行分词操作

#使用jieba中文分词库的textRank算法来找出各个词性的高频词

forx injieba.analyse.textrank(content, topK= 600, allowPOS=( 'n', 'nr', 'ns', 'nt', 'nz', 'm')):

唐诗生成,处理韵脚

#使用pinyin库

pip install pinyin

verse = pinyin.get( "天", format= "strip")

#输出:tian

对于韵脚,本来是想找出所有的韵脚并做成字典形式存储起来,但韵脚总共有20多个,

后来发现其实20多个韵脚都是以元音字母开始的,我们可以基于这个规则来判断:

rhythm = ""

rhythmList = [ "a", "e", "i", "o", "u"]

verse = pinyin.get(nounlist[i1][ 1], format= "strip")

#韵脚在每个pinyin倒叙最后一个元音字母处截止

forp inrange(len(verse)- 1, - 1, - 1):

ifverse[p] inrhythmList:

ind = p

rhythm = verse[ind:len(verse)]

目前是最初级的五言律诗,且为名动名句式

rhythm = ""

rhythmList = [ "a", "e", "i", "o", "u"]

whilenum < 4:

#生成随机数

i = random.randint( 1, len(nounlist)- 1)

i1 = random.randint( 1, len(nounlist)- 1)

j = random.randint( 1, len(verblist)- 1)

#记录韵脚

ind = 0

ind1 = 0

if(num == 1):

rhythm = ""

verse = pinyin.get(nounlist[i1][ 1], format= "strip")

#韵脚在每个pinyin倒叙最后一个元音字母处截止

forp inrange(len(verse)- 1, - 1, - 1):

ifverse[p] inrhythmList:

ind = p

rhythm = verse[ind:len(verse)]

#确保2,4句的韵脚相同,保证押韵

if(num == 3):

ind1 = 0

verse1 = pinyin.get(nounlist[i1][ 1], format= "strip")

forp inrange(len(verse1)- 1, - 1, - 1):

ifverse1[p] inrhythmList:

ind1 = p

whileverse1[ind1: len(verse1)] != rhythm:

i1 = random.randint( 1, len(nounlist)- 1)

verse1 = pinyin.get(nounlist[i1][ 1], format= "strip")

forp inrange(len(verse1)- 1, - 1, - 1):

ifverse1[p] inrhythmList:

ind1 = p

#随机排列组合

print(nounlist[i]+verblist[j][ 1]+nounlist[i1])

num += 1藏头诗

其实思路很简单,既然我们有了语料库,那么,我们每次在排列组合词的时候,只需保证生成每句时,第一个名词的第一个字,是按序给定四字成语中的即可

forx inrange(len(nounlist)):

ifnounlist[x][ 0] == str[num]:

i = x

来看一下结果:

四言诗:

所思浮云

关山车马

高楼流水

闲人肠断

关山车马

高楼流水

闲人肠断

五言律诗:

西风时细雨

山川钓建章

龙门看萧索

几年乡斜阳

山川钓建章

龙门看萧索

几年乡斜阳

藏头诗:

落花流水

落晖首南宫

花枝成公子

流水名朝廷

水声胜白石

花枝成公子

流水名朝廷

水声胜白石

参考:

https://segmentfault.com/a/1190000004571958

当然,现在生成的唐诗还是比较低级的,属于基础的古诗文词语排列组合。

接下来考虑优化模版,提取五言和七言常用句式作为模版。

另外考虑使用机器学习的方法,写RNN来让计算机自动生成充满韵味的诗。

(完)

图文来自网络、如涉及版权问题,请联系我们以便处理。文章内容纯属作者个人观点,不代表本网观点。

BOOK

python获取藏头诗内容_用Python作诗,生活仍有诗和远方相关推荐

  1. python程序写诗_用Python作诗,生活仍有诗和远方

    原标题:用Python作诗,生活仍有诗和远方 报 名 来源:TheodoreXu链接: https://segmentfault.com/a/1190000013154329 常听说,现在的代码,就和 ...

  2. python获取藏头诗内容_Watson使用指南(六)在微信公众号中实现识图作诗功能

    本文章主要是写一下这个项目开发的过程及之间遇到的问题,作为记录,也希望以此为契机认识志同道合的朋友,一起学习交流. 目录: 概述 环境准备及相关账号申请 部署Python Flask应用到Bluemi ...

  3. 用python爬取qq空间内容_用python爬取QQ空间

    原博文 2016-11-18 17:19 − 好久没写博文了,最近捣鼓了一下python,好像有点上瘾了,感觉python比js厉害好多,但是接触不久,只看了<[大家网]Python基础教程(第 ...

  4. python获取藏头诗_1_下载全国历代古诗

    使用python 下载全国历代古诗 打开CMD 安装以下程序 pip install requests pip install lxml 以下是全部代码 import requests from lx ...

  5. python获取mac窗口程序内容_在Mac OS X中获取当前活动窗口/文档的标题

    在Objective-C,简单的答案,用少量可可和大多Carbon Accessibility API是: // Get the process ID of the frontmost applica ...

  6. python程序员的工作内容_每个Python程序员都要知道的日志实践

    许多应用程序中都会有日志模块,用于记录系统在运行过程中的一些关键信息,以便于对系统的运行状况进行跟踪.在.NET平台中,有非常著名的第三方开源日志组件log4net,c++中,有人们熟悉的log4cp ...

  7. python批量提取word指定内容_使用python批量读取word文档并整理关键信息到excel表格的实例...

    目标 最近实验室里成立了一个计算机兴趣小组 倡议大家多把自己解决问题的经验记录并分享 就像在CSDN写博客一样 虽然刚刚起步 但考虑到后面此类经验记录的资料会越来越多 所以一开始就要做好模板设计(如下 ...

  8. python获取一个月之前日期_利用python获取当前日期前后N天或N月日期的方法示例...

    前言 最近因为工作原因,发现一个Python的时间组件,很好用分享出来!(忘记作者名字了,在这里先感谢了),下面话不多说,来一起看看详细的介绍吧. 示例代码: # -*- coding: utf-8 ...

  9. python获取window共享目录列表_利用Python获取DICOM RTstructure勾画列表

    在<利用Python打开DICOM CT文件>一文中,我们利用pydicom.dcmread()读取了CT图像.本文中我们将修改load_scan()函数来读取RTstructure文件并 ...

最新文章

  1. svn官方备份hot-backup.py强烈推荐
  2. CVPR2021 | 视觉 Transformer 的可视化
  3. 处理参数中存在多个连续空格,只显示一个空格,复制后搜索不到得问题
  4. javascript中的后退和刷新
  5. mysql触发器如何获取当前表名_MCGS pro组态环境下,如何获取当前用户名,在画面上显示?...
  6. 信息学奥赛一本通(1032:大象喝水查)
  7. [N1盒子] Phicomm-N1 斐讯 N1 NAS 打造指南
  8. 白硕:人工智能的诗与远方,一文读懂NLP起源、流派和技术
  9. BS和CS的区别有哪些:
  10. 空间换时间,轻松提高性能100倍
  11. 德鲁克谈《自我管理》笔记摘要
  12. 王健林身价暴跌百亿,儿子却在撒钱!
  13. 哈希表的概念(散列表)
  14. 恶意PPT文件夹带漏洞攻击和后门程序
  15. 【HDU 6608】Fansblog(威尔逊定理+逆元+快速乘+快速幂)
  16. Apache 基金会创始成员访谈录 ———— 回顾 Apache 20年历程!
  17. 废物的靶场日记 hackthebox-lame+brainfuck
  18. Java判断一个序列是否可由给定序列通过栈操作获得(ABCDEF)
  19. STM32中读写flash
  20. 二关节机械手PD控制simulink仿真

热门文章

  1. c#初始化数组的四种方式
  2. 【Zotero高效知识管理】(2)Zotero的安装、百度云存储配置及常用插件安装
  3. android相关问题、网摘集锦(持续更新中...)
  4. #268: declaration may not appear after executable statement in block 解决方法
  5. 《Protein Actions Principles and Modeling》-《蛋白质作用原理和建模》中文分享(6)
  6. CentOS 7.5 云主机安装配置Oracle 12cR2
  7. 彩票股票金融与运气之研究(一)-前奏
  8. 代码实现网页右侧固定的qq客服,微信,手机号,置顶的功能
  9. Canvas 拖拉拽建模工具,支持排序导出 Notebook 内容|ModelWhale 版本更新
  10. 博图v15编程手册_西门子PLC博图V15编写程序