python爬取唐诗三百首
python讨论qq群:996113038
导语:
最近一直在写爬虫,写过一些爬取“妹子图”,“小视频”之类的爬虫,但是我想了想。咱们公众号虽然是个技术类公众号。但是总得有点文艺气息。所以这一次,我就用爬虫来爬取一下“唐诗三百首”。
首先说一下这个网站:
http://www.zhongguoshici.com/shici/list?cate=%E5%94%90%E8%AF%97%E4%B8%89%E7%99%BE%E9%A6%96
这就是中国诗词网的唐诗三百首。我们就是在这个网站上下载唐诗。
代码及相关资源获取:
关注“python趣味爱好者”公众号,回复“爬取唐诗”获取源代码。
开发工具:
python3.6.4。
需要安装的第三方库:
requests
parsel
re
效果演示:
用视频太麻烦了,直接用图片吧!直接看一看txt文件。
这就是我们把爬取的唐诗保存下来以后的效果。
基本原理:
原理如下:
我们首先要去这个网站上踩点。看一看这个网站的规律。点击审查元素。看一看这个网址有没有什么特点。诗词的内容到底存储在哪个地方。
没错就是这里,我们获取服务器返回的信息后,就需要在这里提取唐诗。我们用的是xpath语法提取的。
title_url=html.xpath('//div[@class="poem_content"]').extract()
然后得到一个包含着唐诗的列表,但是这里面还有一些别的乱七八糟的字符。于是,我们就用正则表达式把里面的诗词全部提取出来。代码如下:
the_poet=re.findall('<div class="poem_content">(.*?)</div>',poet)
这就是正则表达式。
最后,和以前一样,我们用一个txt文件将所有的唐诗全部存储下来。
f=open("poet.txt","a")for poet in title_url:the_poet=re.findall('<div class="poem_content">(.*?)</div>',poet)f.write(str(the_poet[0]))f.write("\n")
部分代码:
下面是我们的部分源代码:
for i in range(1,4):print("======================正在爬取========================")url=base_url+str(i)response=requests.get(url,headers=headers)html_str=response.texthtml=parsel.Selector(html_str)title_url=html.xpath('//div[@class="poem_content"]').extract()f=open("poet.txt","a")for poet in title_url:the_poet=re.findall('<div class="poem_content">(.*?)</div>',poet)f.write(str(the_poet[0]))f.write("\n")f.close()
感谢大家观看,有钱的老板可以打赏一下小编哦!
扫描下方二维码,关注公众号
参考资料:
图片来源;https://www.pexels.com/zh-tw/photo/46274/
python爬取唐诗三百首相关推荐
- python+jieba分析唐诗三百首
python+jieba分析唐诗三百首 代码及源文件地址:poem_300 代码保证符合命名规范.遵循PEP8规则.导包顺序清晰.尽量做到复用性和不罗嗦 记得修改文件路径哟(^U^)ノ~YO 如果有帮 ...
- Python小工具——唐诗三百首朗读
Python小工具--唐诗三百首朗读 工具简介 系统语音朗读唐诗三百首,可自己选择要朗读的唐诗,可搜索查找唐诗进行朗读,可用于幼儿园或小学生熟悉唐诗,积累文学素养. 工具界面 1.打开工具 可查看当前 ...
- python爬取唐诗300首的诗名和对应的诗人存为Excel
今天,又为了生活而奔波,干了一天的苦力.测试通话是否正常,耳朵都快测废了,明天还有一天.虽然深度学习没有精力搞不了,但是不编程是不可能的,这辈子都不可能不编程.编个爬虫顺便跟大家分享一波python爬 ...
- python唐诗分析综合_Python利器之胎教《唐诗三百首》文本分析
事情是这样的,你们听我讲: 有一天,孕妈妈在家庭群里对准爸爸说,在某猫上买本<唐诗三百首>吧,每天给宝宝读一首唐诗,作为胎教.有图有真相: 作为好吃懒做的准爸爸,听到这个消息的瞬间,表情是 ...
- python爬取虾米音乐_Python爬取620首虾米歌曲,揭秘五月天为什么狂吸粉?!
最近两天,我被朋友圈的五月天粉丝(五迷)疯狂刷屏,"五月天永远陪你到20岁""演唱会即视感",这些字眼让我恨不得马上奔到电影院打卡. 作为五迷,我是满怀激情地在 ...
- Python 爬取 620 首虾米歌曲,揭秘五月天为什么狂吸粉?!
作者 | Yura 责编 | 胡巍巍 最近两天,我被朋友圈的五月天粉丝(五迷)疯狂刷屏,"五月天永远陪你到20岁""演唱会即视感",这些字眼让我恨不得马上奔到电 ...
- python爬取虾米音乐_Python 爬取 620 首虾米歌曲,揭秘五月天为什么狂吸粉?!
原标题:Python 爬取 620 首虾米歌曲,揭秘五月天为什么狂吸粉?! 来源:Yura不说数据说 作者 :Yura 最近两天,我被朋友圈的五月天粉丝(五迷)疯狂刷屏,"五月天永远陪你到2 ...
- 【Pygame小游戏】史上最全:《唐诗三百首》合集,每一首都是精华,果断收藏~(学诗+锻炼记忆+Python诗句填空小程序上线啦)
前言 岁岁年龄岁岁心,不负时光不负卿 哈喽!我是你们的栗子同学,今天给大家来点儿有趣的-- 有句话说:"读史使人明智,读诗使人灵秀."唐诗本来就是中国文化的绚丽瑰宝,是每个人都 ...
- 你可能不了解的《唐诗三百首》
这是学习笔记的第 2189 篇文章 读完需要 9 分钟 速读仅需3分钟 对于唐诗,自己其实是一种复杂的心情,好像会背些,但是用的时候却都想不起.<唐诗三百首>算是重温古诗的一种方式,借着让 ...
最新文章
- Oracle不加IP无法登录,Oracle 无法通过IP连接问题
- python将二维列表内容写入和读取.txt文件
- OWA修改密码注意事项
- apache +php + mysql_apache+php+mysql
- Cocos2d开发1:Xcode与TexturePacker的集成
- 论文浅尝 | Improved Neural Relation Detection for KBQA
- 34 MM配置-采购-采购订单-定义凭证类型
- php打印倒立金字塔,编写程序打印*字符形成的等腰三角形倒立金字塔图形 ******* ***** *** *...
- 编写Java程序,在屏幕上显示带标题的窗口,并添加一个按钮。当用户单击按钮时,结束程序。
- 如何使用cURL一次测量请求和响应时间?
- Linux下Qt5: QMediaRecorder的问题,以及使用QCamera相关类进行摄像头视频采集
- 适合Java新手练手的小项目!
- 红米note5系统Android11,红米Note5-MIUI11 开发版|超多功能|Xposed|ROOT|桌面布局-刷机之家...
- HTML网页设计基础——二维码名片
- MySQL OCP 认证考试你知道吗?
- 记一次独角兽公司双系统迁移合并解决方案
- 在线模拟装机大学计算机,模拟装机实验.doc
- integrate函数python_scipy.integrate Pseudo-Voigt函数,积分变为0
- 智联物联路由器openvpn客户端连接linux服务器通讯基本配置
- JS高级程序设计读书笔记(第五章 引用变量)
热门文章
- 211材料不如专科计算机,从专科到211,我只顾风雨兼程
- 记两个国外CTF的弱pwn
- 基于Kotlin的安卓音乐播放器
- 网址格式化:截取域名
- mysql里admin_Linux中mysqladmin命令起什么作用呢?
- python3.7 32位下载_python3.7.2下载
- 美国计算机专业硕士排名,US News美国计算机专业硕士排名
- 15/18位身份证号码验证
- 【爆点】58和赶集合并了,又要相信爱情了吗?
- ssh 连接错误 Too many authentication failures 解决方法