标题:爬取古诗文网古诗

# encoding=utf-8
import requests
import re# 请求数据
def parse_page(url):headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari''/537.36 Core/1.70.3756.400 QQBrowser/10.5.4039.400'
}response = requests.get(url,headers)text = response.text# 注: . 是匹配不到 \n 的# 注: DOTALL 匹配所有的字符titles = re.findall(r'<div\sclass="cont">.*?<b>(.*?)<b>',text,re.DOTALL)print(titles)dynasties = re.findall(r'<p class="source">.*?<a.*?>(.*?)</a>',text,re.DOTALL)print(dynasties)authors = re.findall(r'<p class="source">.*?<a.*?>.*?<a.*?>(.*?)</a>',text,re.DOTALL)print(authors)content_tags = re.findall(r'<div class="contson".*?>(.*?)</div>',text,re.DOTALL)# 定义列表,储存纯净的古诗文contents = []# 内容过多,可使用遍历for content in content_tags:print(content)if __name__ == '__main__':# 去掉标签x = re.sub(r'<.*?>',"",content)# strip 将 换行 空白 删去# print(x.strip())contents.append(x.strip())# zip :将所有的列表将其组合生成 zip#a = [1,2]#b = [3,4]#c = zip(a,b)#c = [#   (1,3),(titles,dynasties,authors,contents) #将元祖组合成字典#   (2,4)#]#value = (1,2,3)#a,b,c = value# a=1 b=2 c=3poems =[]for value in zip(titles,dynasties,authors,contents):title,dynasty,author,content = value# 将其分别装入字典中poem = {'title':title,'dynasty':dynasty,'author':author,'content':content}poems.append(poem)for poem in poems:print(poem)print('='*80)def main():url = 'https://www.gushiwen.org/'for x in range(1,11):# %s 控制页数url = "https://www.gushiwen.org/default_%s.aspx" %xparse_page(url)if __name__ == '__main__':main()

python-爬取古诗文网古诗相关推荐

  1. 爬取古诗文网的推荐古诗

    爬取古诗文网的推荐古诗 思路分析 完整代码 结果展示 思路分析 本次的主要目的是练习使用正则表达式提取网页中的数据. 该网站的推荐古诗文一共有10页,页码可以在URL中进行控制,比如说,下面的URL指 ...

  2. Python真香之爬取古诗文网

    最近在学习Python相关,学习了基本的语法后想搞点事情试试,所以来爬取下古诗文网中的相关作者信息 准备资料: 爬取目标:爬取古诗文网的唐代作者的信息 目标分析: 一级页面是所有唐代作者的列表,点击名 ...

  3. Python使用网络抓包的方式,利用超级鹰平台识别验证码登录爬取古诗文网、上篇--识别验证码

    Python使用网络抓包的方式,利用超级鹰平台识别验证码登录,<爬取古诗文网>. 上篇–识别验证码 序言: 哈喽,各位小可爱们,我又来了,这次我新学习到的内容是python爬虫识别验证码. ...

  4. Python实战---使用正则表达式爬取古诗文网

    使用正则表达式爬取古诗文网 爬取目标 具体字段为: title 标题 dynasty 朝代 author 作者 content 内容 tag 标签 实现代码 ''' @Description: 使用正 ...

  5. Python爬虫(一)——爬取古诗文网,初识什么是爬虫

    首先来说下什么是爬虫,按照百度百科的说法是:是一种按照一定规则,自动抓取万维网信息的程序或者脚本:首先它是程序,需要我们定义好规则,然后程序就会按照定义好的规则抓取网络上的信息,数据抓取下来了之后,需 ...

  6. python爬取古诗文网站诗文一栏的所有诗词

    写在前面 曾经,我们都有梦,关于文学,关于爱情,关于一场穿越世界的旅行,如今我们深夜饮酒,杯子碰在一起,都是梦破碎的声音 曾经,面对诗文如痴如醉,而如今,已漠眼阑珊,风起云涌不再,呜呼哀哉,索一首诗篇 ...

  7. Python-爬虫(爬虫练习 爬取古诗文网五言绝句)

    目标网站 采用的数据解析方式:xpath.bs4.re正则 获取网站中所有的五言绝句诗词链接 from bs4 import BeautifulSoup import re# 获取五言绝句代码链接,以 ...

  8. 爬虫学习笔记:爬取古诗文网

    1.目标网站 目标网站:https://so.gushiwen.org/shiwen/default.aspx? 2.爬虫目的 爬取目标网站的文本,如古诗的内容,作者,朝代,并且保存到本地中. 3.爬 ...

  9. scrapy框架爬取古诗文网的名句

    使用scrapy框架爬取名句,在这里只爬取的了名句和出处两个字段.具体解析如下: items.py 用来存放爬虫爬取下来的数据模型,代码如下: import scrapyclass QsbkItem( ...

最新文章

  1. Linux IPC POSIX 消息队列
  2. 用高精度方法计算n! ,并显示n!(阶乘)的值。
  3. angular 构建可以动态挂载的配置服务
  4. class(一)--类的创建
  5. 微信扫码登录实现原理
  6. 【人生】不管你挣多少, 钱永远是问题
  7. matlab 可视化(specifier)
  8. 宝塔面板如何将数据自动备份到阿里云OSS对象存储
  9. NYOJ题目91-阶乘之和
  10. 线性代数 --- 带有置换矩阵P的LU分解
  11. Delphi另一个多线程函数:BeginThread用法
  12. 常用的简单的ps快捷键
  13. Centos虚拟机使用virt-manager创建虚拟机
  14. LaTeX技巧100:LaTeX如何输入大小写罗马数字?
  15. 华硕win10键盘失灵_Win10笔记本键盘失灵怎么办 Win10键盘失灵解决方法【详解】...
  16. did you register the component correctly
  17. Starbound正式版的Mod制作(二)nbsp;…
  18. 软件测试面试题【变态逻辑题】,盘点那些大厂面试必出变态逻辑题
  19. Spring定时任务的Demo
  20. Arduino ESP8266 清空WIFI配置信息

热门文章

  1. 5G详解:带AMF重选的注册流程(Step1~5)
  2. 分布式FastDFS存储原理2
  3. 半导体封测项目整体信息安全机制改善案例
  4. PTE准备的时候,用英式英语还是美式英语
  5. 网页制作课作业基于HTML+CSS+JavaScript+jquery仿慕课网教学培训网站设计实例 企业网站制作
  6. 基于狂神说SpringMVC笔记总结
  7. 史上最强鸿蒙教程来袭!知乎上已获千赞,系列教学
  8. dynatrace 详解
  9. 收藏,半导体一些术语的中英文对照
  10. sql中的参照完整性(一对一,一对多,多对多)