古诗文网站的网络爬虫编写方式,通过网络爬虫抓去内容
1. 以下就是古诗文网站的爬虫代码,请看:
# encoding:utf-8
import requests
import re
import jsondef parse_page(url):# 1.请求网站headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36"}response = requests.get(url, headers=headers)text = response.text# 2.解析网站titles = re.findall(r'<div\sclass="cont">.*?<b>(.*?)</b>', text, re.DOTALL)# print json.dumps(titles, encoding="utf-8", ensure_ascii=False)times = re.findall(r'<p\sclass="source">.*?<a\s.*?>(.*?)</a>', text, re.DOTALL)# print json.dumps(times, encoding="utf-8", ensure_ascii=False)authors = re.findall(r'<p class="source">.*?<a.*?<a.*?>(.*?)</a>', text, re.DOTALL)poems_ret = re.findall(r'<div class="contson" id=.*?>(.*?)</div>', text, re.DOTALL)poems = []for poem in poems_ret:temp = re.sub("<.*?>", "", poem)poems.append(temp.strip())# for index, value in enumerate(titles):# print titles[index]# print times[index]# print authors[index]# print poems[index]# print "*"*50# zip函数自动实现上述组合results = []for value in zip(titles, times, authors, poems):title, time, author, poem = valueresult = {"标题": title,"朝代": time,"作者": author,"原文": poem}print result["标题"]results.append(result)# print resultsdef main():url_base = "https://www.xzslx.net/gushi/"for i in range(1, 11):url = url_base.format(i)print " "*20+"优美古诗文"+" "*20print "*"*50parse_page(url)print "*"*50if __name__ == '__main__':main()
2. 输出来的结果是:
C:\DDD\python22\python.exe C:/PyCharm/dytt_spider/poems.py古诗文 ************************************************** 关山月 明月出天山,苍茫云海间。 长风几×××,吹度玉门关。 汉下白登道,胡窥青海湾。 [2] 由来征战地,不见有人还。 戍客望边邑,思归多苦颜。 高楼当此夜,叹息未应闲。 **************************************************古诗文 ************************************************** 陇西行四首·其二 誓扫匈奴不顾身,五千貂锦丧胡尘。 可怜无定河边骨,犹是春闺梦里人! **************************************************古诗文 ************************************************** 嫦娥(嫦娥应悔偷灵药) 云母屏风烛影深, 长河渐落晓星沉。 嫦娥应悔偷灵药, 碧海青天夜夜心。 **************************************************
Process finished with exit code 0
转载于:https://blog.51cto.com/3214135/2156136
古诗文网站的网络爬虫编写方式,通过网络爬虫抓去内容相关推荐
- 用正则表达式爬取古诗文网站,边玩边学【python爬虫入门进阶】(09)
您好,我是码农飞哥,感谢您阅读本文,欢迎一键三连哦.
- 古诗文网站之网络爬虫
1. 下面是古诗文网站的网络爬虫代码 # encoding:utf-8 import requests import re import jsondef parse_page(url):# 1.请求网 ...
- 爬虫实战之爬取古诗文网站 (详细)
爬取古诗文网站 重点是练习正则表达式的使用 链接变化 url_base = 'https://www.gushiwen.cn/default_{}.aspx' for i in range(1, 2) ...
- 用正则表达式爬取古诗文网站,边玩边学
用正则表达式爬取古诗文网站,边玩边学 古诗文网站是一个充满了文化气息的网站,里面收录了大量的古代诗词和文章,对于喜欢文化和历史的人来说是一个非常不错的学习资源.但是如果需要大量下载或者获取古诗文网站上 ...
- java爬虫编写步骤_JAVA爬虫--编写第一个网络爬虫程序
JAVA爬虫–编写第一个网络爬虫程序 前言上一章节介绍了XPATH基础语法,本章节将手把手带大家编写第一个爬虫程序,同时也希望能通过这个爬虫程序,帮助大家熟悉上一章节学习的XPATH基础语法并运用到实 ...
- python爬取古诗文网站诗文一栏的所有诗词
写在前面 曾经,我们都有梦,关于文学,关于爱情,关于一场穿越世界的旅行,如今我们深夜饮酒,杯子碰在一起,都是梦破碎的声音 曾经,面对诗文如痴如醉,而如今,已漠眼阑珊,风起云涌不再,呜呼哀哉,索一首诗篇 ...
- Python爬虫爬取古诗文网站项目分享
作为一个靠python自学入门的菜鸟,想和大家分享自己写的第一个也是目前为止唯一一个爬虫代码 写爬虫要具备的能力基础:python入门基础,html5基础知识,然后这边用的是scrapy框架,所以还要 ...
- python爬虫入门_3种方法爬取古诗文网站
目的: 爬取古诗文网的古诗词,获取详细信息,目标网站:https://www.gushiwen.org/default.aspx?page=1 1.根据网页分析可知 下面包含了当前页面的所有信息,所以 ...
- python爬虫模拟登录古诗文网站
爬取目标网站https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx?type=s 工具: ...
- 进入古诗文网站个人中心,绕过登录
古诗文网-古诗文经典传承 故意输错密码,点击登录,获取登录 url,以及登录所需要携带的参数 __VIEWSTATE: 5KweV6Al3Bxs3eTONplApnHlJpUFEExiebrmbhSc ...
最新文章
- a byte of python-《A Byte of Python》笔记
- 找一个程序员当男朋友是什么样的体验?
- hadoop--集群时间同步(可不同步)
- 【Web动画】SVG 实现复杂线条动画
- HDU 5305 Friends dfs
- 批量打印pdf/图片
- leetcode845. 数组中的最长山脉
- 模拟夜间灯光-科目三-灯光口令(9选5)
- Filecoin(FIL) 交易离线签名
- Linux网络——远程访问控制(SSH服务)
- 在 V2EX 的开发环境里尝试了一下 OneAPM @livid
- html图片的隐藏与显示,Jquery中使用show()与hide()方法动画显示和隐藏图片
- oracle v session表,Oracle技术之V$SESSION_LONGOPS超过系统时间
- Unity----VR摄像机(浅谈)
- 计算机三级网络技术知识点大全(七)
- xmm1是什么器件_模拟电子技术multisim仿真1二极管特性仿真.ppt
- 关于校园霸凌,刚刚发生(解决问题之霸凌方家庭操作建议)
- 转贴-- CISCO CPOS STM配置示例
- 编程计算1 * 2 * 3+3 * 4 * 5+5 * 6 * 7+...+99 * 100 * 101的值。
- 51单片机OLED收银电子秤称重计价清零去皮金额累计HX711