python讨论qq群:996113038


导语:

最近一直在写爬虫,写过一些爬取“妹子图”,“小视频”之类的爬虫,但是我想了想。咱们公众号虽然是个技术类公众号。但是总得有点文艺气息。所以这一次,我就用爬虫来爬取一下“唐诗三百首”。

首先说一下这个网站:

http://www.zhongguoshici.com/shici/list?cate=%E5%94%90%E8%AF%97%E4%B8%89%E7%99%BE%E9%A6%96

这就是中国诗词网的唐诗三百首。我们就是在这个网站上下载唐诗。


代码及相关资源获取:

关注“python趣味爱好者”公众号,回复“爬取唐诗”获取源代码。


开发工具:

python3.6.4。

需要安装的第三方库:

requests

parsel

re


效果演示:

用视频太麻烦了,直接用图片吧!直接看一看txt文件。

这就是我们把爬取的唐诗保存下来以后的效果。


基本原理:

原理如下:

我们首先要去这个网站上踩点。看一看这个网站的规律。点击审查元素。看一看这个网址有没有什么特点。诗词的内容到底存储在哪个地方。

没错就是这里,我们获取服务器返回的信息后,就需要在这里提取唐诗。我们用的是xpath语法提取的。

title_url=html.xpath('//div[@class="poem_content"]').extract()

然后得到一个包含着唐诗的列表,但是这里面还有一些别的乱七八糟的字符。于是,我们就用正则表达式把里面的诗词全部提取出来。代码如下:

the_poet=re.findall('<div class="poem_content">(.*?)</div>',poet)

这就是正则表达式。

最后,和以前一样,我们用一个txt文件将所有的唐诗全部存储下来。

    f=open("poet.txt","a")for poet in title_url:the_poet=re.findall('<div class="poem_content">(.*?)</div>',poet)f.write(str(the_poet[0]))f.write("\n")

部分代码:

下面是我们的部分源代码:

for i in range(1,4):print("======================正在爬取========================")url=base_url+str(i)response=requests.get(url,headers=headers)html_str=response.texthtml=parsel.Selector(html_str)title_url=html.xpath('//div[@class="poem_content"]').extract()f=open("poet.txt","a")for poet in title_url:the_poet=re.findall('<div class="poem_content">(.*?)</div>',poet)f.write(str(the_poet[0]))f.write("\n")f.close()

              感谢大家观看,有钱的老板可以打赏一下小编哦!

扫描下方二维码,关注公众号

参考资料:

图片来源;https://www.pexels.com/zh-tw/photo/46274/

python爬取唐诗三百首相关推荐

  1. python+jieba分析唐诗三百首

    python+jieba分析唐诗三百首 代码及源文件地址:poem_300 代码保证符合命名规范.遵循PEP8规则.导包顺序清晰.尽量做到复用性和不罗嗦 记得修改文件路径哟(^U^)ノ~YO 如果有帮 ...

  2. Python小工具——唐诗三百首朗读

    Python小工具--唐诗三百首朗读 工具简介 系统语音朗读唐诗三百首,可自己选择要朗读的唐诗,可搜索查找唐诗进行朗读,可用于幼儿园或小学生熟悉唐诗,积累文学素养. 工具界面 1.打开工具 可查看当前 ...

  3. python爬取唐诗300首的诗名和对应的诗人存为Excel

    今天,又为了生活而奔波,干了一天的苦力.测试通话是否正常,耳朵都快测废了,明天还有一天.虽然深度学习没有精力搞不了,但是不编程是不可能的,这辈子都不可能不编程.编个爬虫顺便跟大家分享一波python爬 ...

  4. python唐诗分析综合_Python利器之胎教《唐诗三百首》文本分析

    事情是这样的,你们听我讲: 有一天,孕妈妈在家庭群里对准爸爸说,在某猫上买本<唐诗三百首>吧,每天给宝宝读一首唐诗,作为胎教.有图有真相: 作为好吃懒做的准爸爸,听到这个消息的瞬间,表情是 ...

  5. python爬取虾米音乐_Python爬取620首虾米歌曲,揭秘五月天为什么狂吸粉?!

    最近两天,我被朋友圈的五月天粉丝(五迷)疯狂刷屏,"五月天永远陪你到20岁""演唱会即视感",这些字眼让我恨不得马上奔到电影院打卡. 作为五迷,我是满怀激情地在 ...

  6. Python 爬取 620 首虾米歌曲,揭秘五月天为什么狂吸粉?!

    作者 | Yura 责编 | 胡巍巍 最近两天,我被朋友圈的五月天粉丝(五迷)疯狂刷屏,"五月天永远陪你到20岁""演唱会即视感",这些字眼让我恨不得马上奔到电 ...

  7. python爬取虾米音乐_Python 爬取 620 首虾米歌曲,揭秘五月天为什么狂吸粉?!

    原标题:Python 爬取 620 首虾米歌曲,揭秘五月天为什么狂吸粉?! 来源:Yura不说数据说 作者 :Yura 最近两天,我被朋友圈的五月天粉丝(五迷)疯狂刷屏,"五月天永远陪你到2 ...

  8. 【Pygame小游戏】史上最全:《唐诗三百首》合集,每一首都是精华,果断收藏~(学诗+锻炼记忆+Python诗句填空小程序上线啦)

    前言   岁岁年龄岁岁心,不负时光不负卿 哈喽!我是你们的栗子同学,今天给大家来点儿有趣的-- 有句话说:"读史使人明智,读诗使人灵秀."唐诗本来就是中国文化的绚丽瑰宝,是每个人都 ...

  9. 你可能不了解的《唐诗三百首》

    这是学习笔记的第 2189 篇文章 读完需要 9 分钟 速读仅需3分钟 对于唐诗,自己其实是一种复杂的心情,好像会背些,但是用的时候却都想不起.<唐诗三百首>算是重温古诗的一种方式,借着让 ...

最新文章

  1. Oracle不加IP无法登录,Oracle 无法通过IP连接问题
  2. python将二维列表内容写入和读取.txt文件
  3. OWA修改密码注意事项
  4. apache +php + mysql_apache+php+mysql
  5. Cocos2d开发1:Xcode与TexturePacker的集成
  6. 论文浅尝 | Improved Neural Relation Detection for KBQA
  7. 34 MM配置-采购-采购订单-定义凭证类型
  8. php打印倒立金字塔,编写程序打印*字符形成的等腰三角形倒立金字塔图形 ******* ***** *** *...
  9. 编写Java程序,在屏幕上显示带标题的窗口,并添加一个按钮。当用户单击按钮时,结束程序。
  10. 如何使用cURL一次测量请求和响应时间?
  11. Linux下Qt5: QMediaRecorder的问题,以及使用QCamera相关类进行摄像头视频采集
  12. 适合Java新手练手的小项目!
  13. 红米note5系统Android11,红米Note5-MIUI11 开发版|超多功能|Xposed|ROOT|桌面布局-刷机之家...
  14. HTML网页设计基础——二维码名片
  15. MySQL OCP 认证考试你知道吗?
  16. 记一次独角兽公司双系统迁移合并解决方案
  17. 在线模拟装机大学计算机,模拟装机实验.doc
  18. integrate函数python_scipy.integrate Pseudo-Voigt函数,积分变为0
  19. 智联物联路由器openvpn客户端连接linux服务器通讯基本配置
  20. JS高级程序设计读书笔记(第五章 引用变量)

热门文章

  1. 211材料不如专科计算机,从专科到211,我只顾风雨兼程
  2. 记两个国外CTF的弱pwn
  3. 基于Kotlin的安卓音乐播放器
  4. 网址格式化:截取域名
  5. mysql里admin_Linux中mysqladmin命令起什么作用呢?
  6. python3.7 32位下载_python3.7.2下载
  7. 美国计算机专业硕士排名,US News美国计算机专业硕士排名
  8. 15/18位身份证号码验证
  9. 【爆点】58和赶集合并了,又要相信爱情了吗?
  10. ssh 连接错误 Too many authentication failures 解决方法