古诗文网站的网络爬虫编写方式，通过网络爬虫抓去内容

1. 以下就是古诗文网站的爬虫代码，请看：

# encoding:utf-8
import requests
import re
import jsondef parse_page(url):# 1.请求网站headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36"}response = requests.get(url, headers=headers)text = response.text# 2.解析网站titles = re.findall(r'<div\sclass="cont">.*?<b>(.*?)</b>', text, re.DOTALL)# print json.dumps(titles, encoding="utf-8", ensure_ascii=False)times = re.findall(r'<p\sclass="source">.*?<a\s.*?>(.*?)</a>', text, re.DOTALL)# print json.dumps(times, encoding="utf-8", ensure_ascii=False)authors = re.findall(r'<p class="source">.*?<a.*?<a.*?>(.*?)</a>', text, re.DOTALL)poems_ret = re.findall(r'<div class="contson" id=.*?>(.*?)</div>', text, re.DOTALL)poems = []for poem in poems_ret:temp = re.sub("<.*?>", "", poem)poems.append(temp.strip())# for index, value in enumerate(titles):#     print titles[index]#     print times[index]#     print authors[index]#     print poems[index]#     print "*"*50# zip函数自动实现上述组合results = []for value in zip(titles, times, authors, poems):title, time, author, poem = valueresult = {"标题": title,"朝代": time,"作者": author,"原文": poem}print result["标题"]results.append(result)# print resultsdef main():url_base = "https://www.xzslx.net/gushi/"for i in range(1, 11):url = url_base.format(i)print " "*20+"优美古诗文"+" "*20print "*"*50parse_page(url)print "*"*50if __name__ == '__main__':main()

2. 输出来的结果是：

C:\DDD\python22\python.exe C:/PyCharm/dytt_spider/poems.py古诗文
**************************************************
关山月
明月出天山，苍茫云海间。
长风几×××，吹度玉门关。
汉下白登道，胡窥青海湾。
[2] 由来征战地，不见有人还。
戍客望边邑，思归多苦颜。
高楼当此夜，叹息未应闲。
**************************************************古诗文
**************************************************
陇西行四首·其二
誓扫匈奴不顾身，五千貂锦丧胡尘。
可怜无定河边骨，犹是春闺梦里人！
**************************************************古诗文
**************************************************
嫦娥（嫦娥应悔偷灵药)
云母屏风烛影深， 长河渐落晓星沉。 嫦娥应悔偷灵药， 碧海青天夜夜心。
**************************************************

Process finished with exit code 0

转载于:https://blog.51cto.com/3214135/2156136

古诗文网站的网络爬虫编写方式，通过网络爬虫抓去内容相关推荐

用正则表达式爬取古诗文网站，边玩边学【python爬虫入门进阶】（09）
您好,我是码农飞哥,感谢您阅读本文,欢迎一键三连哦.
古诗文网站之网络爬虫
1. 下面是古诗文网站的网络爬虫代码 # encoding:utf-8 import requests import re import jsondef parse_page(url):# 1.请求网 ...
爬虫实战之爬取古诗文网站（详细）
爬取古诗文网站重点是练习正则表达式的使用链接变化 url_base = 'https://www.gushiwen.cn/default_{}.aspx' for i in range(1, 2) ...
用正则表达式爬取古诗文网站，边玩边学
用正则表达式爬取古诗文网站,边玩边学古诗文网站是一个充满了文化气息的网站,里面收录了大量的古代诗词和文章,对于喜欢文化和历史的人来说是一个非常不错的学习资源.但是如果需要大量下载或者获取古诗文网站上 ...
java爬虫编写步骤_JAVA爬虫--编写第一个网络爬虫程序
JAVA爬虫–编写第一个网络爬虫程序前言上一章节介绍了XPATH基础语法,本章节将手把手带大家编写第一个爬虫程序,同时也希望能通过这个爬虫程序,帮助大家熟悉上一章节学习的XPATH基础语法并运用到实 ...
python爬取古诗文网站诗文一栏的所有诗词
写在前面曾经,我们都有梦,关于文学,关于爱情,关于一场穿越世界的旅行,如今我们深夜饮酒,杯子碰在一起,都是梦破碎的声音曾经,面对诗文如痴如醉,而如今,已漠眼阑珊,风起云涌不再,呜呼哀哉,索一首诗篇 ...
Python爬虫爬取古诗文网站项目分享
作为一个靠python自学入门的菜鸟,想和大家分享自己写的第一个也是目前为止唯一一个爬虫代码写爬虫要具备的能力基础:python入门基础,html5基础知识,然后这边用的是scrapy框架,所以还要 ...
python爬虫入门_3种方法爬取古诗文网站
目的: 爬取古诗文网的古诗词,获取详细信息,目标网站:https://www.gushiwen.org/default.aspx?page=1 1.根据网页分析可知下面包含了当前页面的所有信息,所以 ...
python爬虫模拟登录古诗文网站
爬取目标网站https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx?type=s 工具: ...
进入古诗文网站个人中心，绕过登录
古诗文网-古诗文经典传承故意输错密码,点击登录,获取登录 url,以及登录所需要携带的参数 __VIEWSTATE: 5KweV6Al3Bxs3eTONplApnHlJpUFEExiebrmbhSc ...

古诗文网站的网络爬虫编写方式，通过网络爬虫抓去内容

古诗文网站的网络爬虫编写方式，通过网络爬虫抓去内容相关推荐

最新文章

热门文章