原标题:用Python作诗,生活仍有诗和远方

报 名

来源:TheodoreXu链接:

https://segmentfault.com/a/1190000013154329

常听说,现在的代码,就和唐朝的诗一样重要。

可对我们来说,写几行代码没什么,但是,要让我们真正地去写一首唐诗,那可就头大了。。既然如此,为何不干脆用代码写一首唐诗?

准备:

python3.6环境

推荐使用anaconda管理python包,可以对于每个项目,创建环境,并在该环境下下载项目需要的包。

推荐使用pycharm作为编译器。

GitHub代码:

https://github.com/theodore3131/TangshiGenerator

具体步骤:

使用爬虫爬取全唐诗,总共抓取了71000首。

#使用urllib3的内置函数构建爬虫的安全验证,来应对网站的反爬虫机制

http = urllib3.PoolManager(

cert_reqs= 'CERT_REQUIRED',

ca_certs=certifi.where())

#爬虫的目标网站

r = http.request( 'GET', url)

#爬虫获取的html数据

soup = BeautifulSoup(r.data, 'html.parser')

content = soup.find( 'div', class_= "contson")

使用正则表达式对爬取的数据进行处理

p1 = r"[u4e00-u9fa5]{5,7}[u3002|uff0c]"#[汉字]{重复5-7次}[中文句号|中文逗号]

pattern1 = re.compile(p1) #编译正则表达式

result = pattern1.findall(poemfile) #搜索匹配的字符串,得到匹配列表

对诗词正文进行分词操作

#使用jieba中文分词库的textRank算法来找出各个词性的高频词

forx injieba.analyse.textrank(content, topK= 600, allowPOS=( 'n', 'nr', 'ns', 'nt', 'nz', 'm')):

唐诗生成,处理韵脚

#使用pinyin库

pip install pinyin

verse = pinyin.get( "天", format= "strip")

#输出:tian

对于韵脚,本来是想找出所有的韵脚并做成字典形式存储起来,但韵脚总共有20多个,

后来发现其实20多个韵脚都是以元音字母开始的,我们可以基于这个规则来判断:

rhythm = ""

rhythmList = [ "a", "e", "i", "o", "u"]

verse = pinyin.get(nounlist[i1][ 1], format= "strip")

#韵脚在每个pinyin倒叙最后一个元音字母处截止

forp inrange(len(verse)- 1, - 1, - 1):

ifverse[p] inrhythmList:

ind = p

rhythm = verse[ind:len(verse)]

目前是最初级的五言律诗,且为名动名句式

rhythm = ""

rhythmList = [ "a", "e", "i", "o", "u"]

whilenum < 4:

#生成随机数

i = random.randint( 1, len(nounlist)- 1)

i1 = random.randint( 1, len(nounlist)- 1)

j = random.randint( 1, len(verblist)- 1)

#记录韵脚

ind = 0

ind1 = 0

if(num == 1):

rhythm = ""

verse = pinyin.get(nounlist[i1][ 1], format= "strip")

#韵脚在每个pinyin倒叙最后一个元音字母处截止

forp inrange(len(verse)- 1, - 1, - 1):

ifverse[p] inrhythmList:

ind = p

rhythm = verse[ind:len(verse)]

#确保2,4句的韵脚相同,保证押韵

if(num == 3):

ind1 = 0

verse1 = pinyin.get(nounlist[i1][ 1], format= "strip")

forp inrange(len(verse1)- 1, - 1, - 1):

ifverse1[p] inrhythmList:

ind1 = p

whileverse1[ind1: len(verse1)] != rhythm:

i1 = random.randint( 1, len(nounlist)- 1)

verse1 = pinyin.get(nounlist[i1][ 1], format= "strip")

forp inrange(len(verse1)- 1, - 1, - 1):

ifverse1[p] inrhythmList:

ind1 = p

#随机排列组合

print(nounlist[i]+verblist[j][ 1]+nounlist[i1])

num += 1藏头诗

其实思路很简单,既然我们有了语料库,那么,我们每次在排列组合词的时候,只需保证生成每句时,第一个名词的第一个字,是按序给定四字成语中的即可

forx inrange(len(nounlist)):

ifnounlist[x][ 0] == str[num]:

i = x

来看一下结果:

四言诗:

所思浮云

关山车马

高楼流水

闲人肠断

五言律诗:

西风时细雨

山川钓建章

龙门看萧索

几年乡斜阳

藏头诗:

落花流水

落晖首南宫

花枝成公子

流水名朝廷

水声胜白石

参考:

https://segmentfault.com/a/1190000004571958

当然,现在生成的唐诗还是比较低级的,属于基础的古诗文词语排列组合。

接下来考虑优化模版,提取五言和七言常用句式作为模版。

另外考虑使用机器学习的方法,写RNN来让计算机自动生成充满韵味的诗。

(完)

图文来自网络、如涉及版权问题,请联系我们以便处理。文章内容纯属作者个人观点,不代表本网观点。

责任编辑:

python作诗_用Python作诗,生活仍有诗和远方相关推荐

  1. python程序写诗_用Python作诗,生活仍有诗和远方

    原标题:用Python作诗,生活仍有诗和远方 报 名 来源:TheodoreXu链接: https://segmentfault.com/a/1190000013154329 常听说,现在的代码,就和 ...

  2. python获取藏头诗内容_用Python作诗,生活仍有诗和远方

    具体步骤: 使用爬虫爬取全唐诗,总共抓取了71000首. #使用urllib3的内置函数构建爬虫的安全验证,来应对网站的反爬虫机制 http = urllib3.PoolManager( cert_r ...

  3. python 时间序列预测_使用Python进行动手时间序列预测

    python 时间序列预测 Time series analysis is the endeavor of extracting meaningful summary and statistical ...

  4. python 概率分布模型_使用python的概率模型进行公司估值

    python 概率分布模型 Note from Towards Data Science's editors: While we allow independent authors to publis ...

  5. python输出一首诗_用Python自动生成藏头诗

    本文首发于公众号「老肥码码码」 前几天老肥给大家介绍了有意思的藏头诗,今天我们就来自己根据输入语句实现自动生成藏头藏尾诗吧. 整个诗句生成的逻辑是这样的,先根据输入语句爬取符合要求的诗句(来自百度汉语 ...

  6. 使用python预测基金_使用python先知3 1创建预测

    使用python预测基金 This tutorial was created to democratize data science for business users (i.e., minimiz ...

  7. python 金融可视化_用 Python 进行金融数据可视化

    Python量化的关键是金融数据可视化,不管是传统的K线图,仍是如今的策略分析,都须要大量的可视化图表.具体到编程代码,就是使用Python绘图模块库绘图,好比传统的Python绘图模块库有Matpl ...

  8. 儿童学python第一课_初学Python(第一课)

    今天整理一下关于Python初学者的基础知识部分的第一课,因为之前学习过C,所以过于基础的知识就不详细记录了. Python相对于C\C++来说,在语法方面已经很简单了:甚至对于JavaScript也 ...

  9. python ray定时_当 Python 邂逅 POV-Ray

    引言 POV-Ray 是一种专业的三维场景描述语言,它描述的三维场景可交由 POV-Ray 的解析器(或编译器)采用光线跟踪技术进行渲染,渲染结果为位图. POV-Ray 语言是图灵完备的,亦即其他编 ...

  10. python cookbook 豆瓣_学习python求推荐一波书籍?

    豆瓣最受好评的20本Python书 No.1 Fluent Python(豆瓣评分:9.6)Many programmers who learn Python basics fall into the ...

最新文章

  1. 【计算机网络】关于分组交换和电路交换及其时延的讨论
  2. Java笔记-JPA保存数据时指定列不插入提交(CURRENT_TIMESTAMP)
  3. mysql innodbmaxdirtypagespct_【MySQL】值得关注的参数
  4. Mac目录映射到docker容器ubuntu目录
  5. 6.2016年国赛A题“系泊系统的设计”
  6. 解方程的计算机软件,解方程计算器app
  7. 微信表情图像代表什么意思_微信表情含义图解大全(微信58个表情含义图)
  8. 饿了么移动APP的架构演进
  9. 中小企业(OA)办公系统方案 huangai[VA]
  10. SVM原理:超平面方程
  11. 免费的易语言网络验证系统
  12. MTK6577 Android源代码目录
  13. python3日期时间运算_马克的Python学习笔记#数字,日期和时间3
  14. 周训练计划之(韦德分化训练法:胸、肩、背、腿、腹)
  15. DPDK Rx flexible descriptor 在Intel E810 网卡中的使用
  16. 隐私计算之差分隐私-Laplace机制
  17. 数字货币量化分析[2018-05-27]
  18. 基于GeoServer的电子地图系统说明
  19. Arduino控制PCF8574
  20. Web后端servlet—使用servlet的Part接口实现单文件多文件上传、以及日期格式转换为sql日期格式的实现

热门文章

  1. php 路由器设置密码,登陆192.168.1.1路由器如何设置密码
  2. mysql 1194_打开网页提示mysql发生错误,错误号1194,请问下该怎么解决? 爱问知识人...
  3. mysql删除某天前的数据
  4. C# 如何插入、编辑和删除Excel批注
  5. UWP 写入图片 Exif 信息
  6. Crust “方舟计划”播报# 3|Crust社区杰出贡献节点——20 位“开拓者”诞生
  7. paypal支付注意事项
  8. FTP上传文件0字节问题
  9. 六类水晶头的制作方法
  10. docker查看mysql日志_如何查看docker运行日志