Python爬虫实战(3)古诗文网

  • 网页分析
  • 代码
    • 注意事项
  • 输出结果

利用BeautifulSoup和和requests库实现古诗文网的古诗抓取

运行平台: Windows
Python版本: Python 3.8
IDE: Pycharm

抓取古诗文网的古诗和标题

网页分析

古诗文网https://www.gushiwen.org/default_1.aspx

       所有的古诗都放在div class=“left” 中的 div class=“son” 中.
       而古诗的标题则在其中的p标签的a标签中,古诗的内容在div class=“contson”

代码

# 从古诗文网上爬取古诗
import requests
from bs4 import BeautifulSoupdef parser_page(url):response = requests.get(url)html = response.textbs = BeautifulSoup(html, 'html.parser')sons = bs.find_all('div', class_='left')[1].find_all('div', class_='sons')print('\n')for son in sons:title = son.find('p').a.stringpoem = son.find('div', class_='contson')# 去除前面的标签符号和<br>这些poem = str(poem.text.replace('\xa0' * 8, '\n'))print(title, end=' : ')print(poem)print('*' * 30)def main():pagenum = 2for i in range(pagenum):url = 'https://www.gushiwen.org/default_' + str(i + 1) + '.aspx'parser_page(url)if __name__ == '__main__':main()

注意事项

        # 去除前面的标签符号和<br>这些,转成str以便可以做strip()操作poem = str(poem.text.replace('\xa0' * 8, '\n'))print(title, end=' : ')print(poem)print('*' * 30)

要是没有 poem = str(poem.text.replace(’\xa0’ * 8, ‘\n’)) 去除前的br标签, 直接得到的结果显示不太好看,会带有这些标签,如下::

蝶恋花·醉别西楼醒不记 : <div class="contson" id="contson7f30c8f6836d">
醉别西楼醒不记。春梦秋云,聚散真容易。斜月半窗还少睡。画屏闲展吴山翠。 <br/>衣上酒痕诗里字。点点行行,总是凄凉意。红烛自怜无好计。夜寒空替人垂泪。
</div>
******************************
浣溪沙·花榭香红烟景迷 : <div class="contson" id="contson89aef34b556d">
花榭香红烟景迷,满庭芳草绿萋萎,金铺闲掩绣帘低。<br/>紫燕一双娇语碎,翠屏十二晚峰齐,梦魂消散醉空闺。
</div>
******************************

输出结果

蝶恋花·醉别西楼醒不记 :
醉别西楼醒不记。春梦秋云,聚散真容易。斜月半窗还少睡。画屏闲展吴山翠。 衣上酒痕诗里字。点点行行,总是凄凉意。红烛自怜无好计。夜寒空替人垂泪。******************************
浣溪沙·花榭香红烟景迷 :
花榭香红烟景迷,满庭芳草绿萋萎,金铺闲掩绣帘低。紫燕一双娇语碎,翠屏十二晚峰齐,梦魂消散醉空闺。******************************
江城子·醉来长袖舞鸡鸣 :
醉来长袖舞鸡鸣,短歌行,壮心惊。西北神州,依旧一新亭。三十六峰长剑在,星斗气,郁峥嵘。古来豪侠数幽并,鬓星星,竟何成!他日封侯,编简为谁青?一掬钓鱼坛上泪,风浩浩,雨冥冥。******************************
断句 :
近水楼台先得月,向阳花木易为春。******************************
月下笛·万里孤云 :
孤游万竹山中,闲门落叶,愁思黯然,因动《黍离》之感。时寓甬东积翠山舍。
万里孤云,清游渐远,故人何处?寒窗梦里,犹记经行旧时路。连昌约略无多柳,第一是难听夜雨。漫惊回凄悄,相看烛影,拥衾谁语?张绪归何暮?半零落依依,断桥鸥鹭。天涯倦旅,此时心事良苦。只愁重洒西州泪,问杜曲人家在否?恐翠袖正天寒,犹倚梅花那树。******************************
随师东 :
东征日调万黄金,几竭中原买斗心。军令未闻诛马谡,捷书惟是报孙歆。但须鸑鷟巢阿阁,岂假鸱鸮在泮林。可惜前朝玄菟郡,积骸成莽阵云深。******************************
骆谷晚望 :
秦川如画渭如丝,去国还家一望时。公子王孙莫来好,岭花多是断肠枝。******************************
踏莎行·题草窗词卷 :
白石飞仙,紫霞凄调,断歌人听知音少。几番幽梦欲回时,旧家池馆生青草。风月交游,山川怀抱,凭谁说与春知道?空留离恨满江南,相思一夜苹花老。******************************
武陵春·春晚 :
风住尘香花已尽,日晚倦梳头。物是人非事事休,欲语泪先流。闻说双溪春尚好,也拟泛轻舟。只恐双溪舴艋舟,载不动许多愁。******************************
送桂州严大夫同用南字 :
苍苍森八桂,兹地在湘南。江作青罗带,山如碧玉篸。户多输翠羽,家自种黄甘。远胜登仙去,飞鸾不假骖。******************************彩云归·蘅皋向晚舣轻航 :
蘅皋向晚舣轻航。卸云帆、水驿鱼乡。当暮天、霁色如晴昼,江练静、皎月飞光。那堪听、远村羌管,引离人断肠。此际浪萍风梗,度岁茫茫。堪伤。朝欢暮散,被多情、赋与凄凉。别来最苦,襟袖依约,尚有余香。算得伊、鸳衾凤枕,夜永争不思量。牵情处,惟有临歧,一句难忘。******************************
鹧鸪天·东阳道中 :
扑面征尘去路遥,香篝渐觉水沉销。山无重数周遭碧,花不知名分外娇。人历历,马萧萧,旌旗又过小红桥。愁边剩有相思句,摇断吟鞭碧玉梢。******************************
衡门 :
衡门之下,可以栖迟。泌之洋洋,可以乐饥。岂其食鱼,必河之鲂?岂其取妻,必齐之姜?岂其食鱼,必河之鲤?岂其取妻,必宋之子?******************************
绝句送巨山 :
二年寄迹闽山寺,一笑翻然向浙江。明月不知君已去,夜深还照读书窗。******************************
寒食诗 :
寒食时看郭外春,野人无处不伤神。平原累累添新冢,半是去年来哭人。******************************
浣溪沙·漠漠轻寒上小楼 :
漠漠轻寒上小楼,晓阴无赖似穷秋。淡烟流水画屏幽。自在飞花轻似梦,无边丝雨细如愁。宝帘闲挂小银钩。******************************
荷叶杯·弱柳好花尽拆 :
弱柳好花尽拆,晴陌。陌上少年郎,满身兰麝扑人香。狂么狂,狂么狂?******************************
喜迁莺·鸠雨细 :
鸠雨细,燕风斜。春悄谢娘家。一重帘外即天涯。何必暮云遮。 钏金寒,钗玉冷。薄醉欲成还醒。一春梳洗不簪花。孤负几韶华。******************************
结客少年场行 :
紫燕黄金瞳,啾啾摇绿騣。平明相驰逐,结客洛门东。少年学剑术,凌轹白猿公。珠袍曳锦带,匕首插吴鸿。由来万夫勇,挟此生雄风。托交从剧孟,买醉入新丰。笑尽一杯酒,杀人都市中。羞道易水寒,从令日贯虹。燕丹事不立,虚没秦帝宫。舞阳死灰人,安可与成功。******************************
阳关曲·中秋月 :
中秋作本名小秦王,入腔即阳关曲
暮云收尽溢清寒,银汉无声转玉盘。此生此夜不长好,明月明年何处看。******************************

Python爬虫实战(3)古诗文网相关推荐

  1. python Scrapy项目 之 古诗文网案例呈现

    python Scrapy项目 之 古诗文网案例呈现 文章目录 需求 1. Scrapy项目创建 2. 全局配置 settings.py 3. 爬虫程序.py 4. 数据结构 items.py 5. ...

  2. python爬虫实战一|大众点评网

    PS:如果不懂的可以看我的上一篇文章快速入门Python爬虫 阶段 类型 问题 需要做到 1 请求 网页数据在哪里? 发现网址url规律 2 请求 如何获取网页数据 先尝试使用requests成功访问 ...

  3. python爬虫----DAY4-1-----验证码识别实战---识别古诗文网

    python爬虫----DAY4-1-----验证码识别实战 实战:识别古诗文网登录页面中的验证码 -https://so.gushiwen.cn/user/login.aspx 文章目录 pytho ...

  4. 03-数据解析_正则表达式(03 【实战】古诗文网爬虫)

    目标:爬取中国古诗文网的诗词 注意: 用正则的思路不一样:不存在树结构,在正则眼里只当作'str' 关注zip的用法 中国古诗文网网页示例:   1.xpath方法 # -*- coding: utf ...

  5. Python爬虫爬取古诗文网站项目分享

    作为一个靠python自学入门的菜鸟,想和大家分享自己写的第一个也是目前为止唯一一个爬虫代码 写爬虫要具备的能力基础:python入门基础,html5基础知识,然后这边用的是scrapy框架,所以还要 ...

  6. python爬虫模拟登录古诗文网站

    爬取目标网站https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx?type=s 工具: ...

  7. Python爬虫实战三 | 蓝奏网盘抓取网盘链接信息

    今天在使用蓝奏网盘的时候发现有一个文件夹加密分享,然后我就尝试了加密文件夹,但是文件夹下的文件还是可以直接通过访问该文件链接得到,所以对于文件夹加密是否显得有点鸡肋了呐? 如此,我们便简单的使用Pyt ...

  8. Python爬虫实战: 爬取网易云歌单

    这篇文章,我们就来讲讲怎样爬取网易云歌单,并将歌单按播放量进行排序,下面先上效果图 1.用 requests 爬取网易云歌单 打开 网易云音乐 歌单首页,不难发现这是一个静态网页,而且格式很有规律,爬 ...

  9. Python爬虫实战 | 抓取小说网完结小说斗罗大陆

    储备知识应有:Python语言程序设计 Python网络爬虫与信息提取 两门课程都是中国大学MOOC的精彩课程,特别推荐初学者.环境Python3 本文整体思路是:1.获取小说目录页面,解析目录页面, ...

  10. python爬虫实战1-获取当当网近30日好评榜前500本书籍

    1.首先打开当当网,点击好评榜,选择近30日,此时浏览器中的URL复制一下,备用 http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00- ...

最新文章

  1. python拟合求参_机器学习作业(四)神经网络参数的拟合——Python(numpy)实现
  2. SKU表管理之删除SKU表数据
  3. 清华张悠慧:AI时代,「图灵完备」之后,「类脑计算完备」如何设计?
  4. 在vue项目中:统一封装 Axios 接口与异常处理
  5. IDEA、pycharm白嫖攻略
  6. python爬虫更改ip_Python小说爬虫,有目录,有文字极简处理,还有IP解锁方式
  7. nlp-tutorial代码注释1-1,语言模型、n-gram简介
  8. R读取MySQL数据出现乱码,解决该问题的方法总结
  9. GRU门控制循环单元【转载】
  10. win10无法装载iso文件_装载Win10 ISO镜像文件的具体方法
  11. 理论篇-地图学与GIS制图的基础理论(一)
  12. 华为机考 叠积木 python (以及处理输入)
  13. FPGA的进阶项目——开源示波器
  14. 【推荐】移动App测试中的最佳做法
  15. 【Lua】ToLua逻辑热更新
  16. 只要35+的程序员,招聘广告开始玩噱头?
  17. Resolution-robust Large Mask Inpainting with Fourier Convolutions(2021)
  18. 使用win10自带的手机投屏功能
  19. 应用中心服务器连接不上,Discuz!论坛:您的服务器无法访问应用中心,这将会导致应用无法安装的解决办法...
  20. SpringBoot - 网络请求客户端WebClient使用详解

热门文章

  1. SerialPort使用
  2. 几个实用都前端UI组件库
  3. CorelDraw出现应用程序恢复管理器向导解决办法汇总
  4. 我的TTT内训师培训经历
  5. 电脑常见问题整理 过年送父母的礼物
  6. 二维码智能巡检系统让电站设备巡检更智能
  7. 【逗老师带你学IT】HUAWEI华为防火墙自动化运维Python ssh管理网络设备
  8. 苹果CMS10怎么添加电影分类
  9. 实现好友管理的基本功能,包括添加好友、删除好友、备注好友、展示好友等(只是对该功能的显示框架)
  10. 山东村民水井捞出女性头颅 死者系遭人肢解抛尸