1. 以下就是古诗文网站的爬虫代码,请看:

# encoding:utf-8
import requests
import re
import jsondef parse_page(url):# 1.请求网站headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36"}response = requests.get(url, headers=headers)text = response.text# 2.解析网站titles = re.findall(r'<div\sclass="cont">.*?<b>(.*?)</b>', text, re.DOTALL)# print json.dumps(titles, encoding="utf-8", ensure_ascii=False)times = re.findall(r'<p\sclass="source">.*?<a\s.*?>(.*?)</a>', text, re.DOTALL)# print json.dumps(times, encoding="utf-8", ensure_ascii=False)authors = re.findall(r'<p class="source">.*?<a.*?<a.*?>(.*?)</a>', text, re.DOTALL)poems_ret = re.findall(r'<div class="contson" id=.*?>(.*?)</div>', text, re.DOTALL)poems = []for poem in poems_ret:temp = re.sub("<.*?>", "", poem)poems.append(temp.strip())# for index, value in enumerate(titles):#     print titles[index]#     print times[index]#     print authors[index]#     print poems[index]#     print "*"*50# zip函数自动实现上述组合results = []for value in zip(titles, times, authors, poems):title, time, author, poem = valueresult = {"标题": title,"朝代": time,"作者": author,"原文": poem}print result["标题"]results.append(result)# print resultsdef main():url_base = "https://www.xzslx.net/gushi/"for i in range(1, 11):url = url_base.format(i)print " "*20+"优美古诗文"+" "*20print "*"*50parse_page(url)print "*"*50if __name__ == '__main__':main()

2. 输出来的结果是:

C:\DDD\python22\python.exe C:/PyCharm/dytt_spider/poems.py古诗文
**************************************************
关山月
明月出天山,苍茫云海间。
长风几×××,吹度玉门关。
汉下白登道,胡窥青海湾。
[2] 由来征战地,不见有人还。
戍客望边邑,思归多苦颜。
高楼当此夜,叹息未应闲。
**************************************************古诗文
**************************************************
陇西行四首·其二
誓扫匈奴不顾身,五千貂锦丧胡尘。
可怜无定河边骨,犹是春闺梦里人!
**************************************************古诗文
**************************************************
嫦娥(嫦娥应悔偷灵药)
云母屏风烛影深, 长河渐落晓星沉。 嫦娥应悔偷灵药, 碧海青天夜夜心。
**************************************************

Process finished with exit code 0

转载于:https://blog.51cto.com/3214135/2156136

古诗文网站的网络爬虫编写方式,通过网络爬虫抓去内容相关推荐

  1. 用正则表达式爬取古诗文网站,边玩边学【python爬虫入门进阶】(09)

    您好,我是码农飞哥,感谢您阅读本文,欢迎一键三连哦.

  2. 古诗文网站之网络爬虫

    1. 下面是古诗文网站的网络爬虫代码 # encoding:utf-8 import requests import re import jsondef parse_page(url):# 1.请求网 ...

  3. 爬虫实战之爬取古诗文网站 (详细)

    爬取古诗文网站 重点是练习正则表达式的使用 链接变化 url_base = 'https://www.gushiwen.cn/default_{}.aspx' for i in range(1, 2) ...

  4. 用正则表达式爬取古诗文网站,边玩边学

    用正则表达式爬取古诗文网站,边玩边学 古诗文网站是一个充满了文化气息的网站,里面收录了大量的古代诗词和文章,对于喜欢文化和历史的人来说是一个非常不错的学习资源.但是如果需要大量下载或者获取古诗文网站上 ...

  5. java爬虫编写步骤_JAVA爬虫--编写第一个网络爬虫程序

    JAVA爬虫–编写第一个网络爬虫程序 前言上一章节介绍了XPATH基础语法,本章节将手把手带大家编写第一个爬虫程序,同时也希望能通过这个爬虫程序,帮助大家熟悉上一章节学习的XPATH基础语法并运用到实 ...

  6. python爬取古诗文网站诗文一栏的所有诗词

    写在前面 曾经,我们都有梦,关于文学,关于爱情,关于一场穿越世界的旅行,如今我们深夜饮酒,杯子碰在一起,都是梦破碎的声音 曾经,面对诗文如痴如醉,而如今,已漠眼阑珊,风起云涌不再,呜呼哀哉,索一首诗篇 ...

  7. Python爬虫爬取古诗文网站项目分享

    作为一个靠python自学入门的菜鸟,想和大家分享自己写的第一个也是目前为止唯一一个爬虫代码 写爬虫要具备的能力基础:python入门基础,html5基础知识,然后这边用的是scrapy框架,所以还要 ...

  8. python爬虫入门_3种方法爬取古诗文网站

    目的: 爬取古诗文网的古诗词,获取详细信息,目标网站:https://www.gushiwen.org/default.aspx?page=1 1.根据网页分析可知 下面包含了当前页面的所有信息,所以 ...

  9. python爬虫模拟登录古诗文网站

    爬取目标网站https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx?type=s 工具: ...

  10. 进入古诗文网站个人中心,绕过登录

    古诗文网-古诗文经典传承 故意输错密码,点击登录,获取登录 url,以及登录所需要携带的参数 __VIEWSTATE: 5KweV6Al3Bxs3eTONplApnHlJpUFEExiebrmbhSc ...

最新文章

  1. a byte of python-《A Byte of Python》笔记
  2. 找一个程序员当男朋友是什么样的体验?
  3. hadoop--集群时间同步(可不同步)
  4. 【Web动画】SVG 实现复杂线条动画
  5. HDU 5305 Friends dfs
  6. 批量打印pdf/图片
  7. leetcode845. 数组中的最长山脉
  8. 模拟夜间灯光-科目三-灯光口令(9选5)
  9. Filecoin(FIL) 交易离线签名
  10. Linux网络——远程访问控制(SSH服务)
  11. 在 V2EX 的开发环境里尝试了一下 OneAPM @livid
  12. html图片的隐藏与显示,Jquery中使用show()与hide()方法动画显示和隐藏图片
  13. oracle v session表,Oracle技术之V$SESSION_LONGOPS超过系统时间
  14. Unity----VR摄像机(浅谈)
  15. 计算机三级网络技术知识点大全(七)
  16. xmm1是什么器件_模拟电子技术multisim仿真1二极管特性仿真.ppt
  17. 关于校园霸凌,刚刚发生(解决问题之霸凌方家庭操作建议)
  18. 转贴-- CISCO CPOS STM配置示例
  19. 编程计算1 * 2 * 3+3 * 4 * 5+5 * 6 * 7+...+99 * 100 * 101的值。
  20. 51单片机OLED收银电子秤称重计价清零去皮金额累计HX711

热门文章

  1. 如何获取计算机网络地址,如何查看电脑网卡获取的IP地址是多少?
  2. 卡麦吉梅隆大学 计算机排名,2019年卡内基梅隆大学信息系统排名
  3. 景联文科技为自动驾驶DMS系统提供数据采集标注服务
  4. 2048游戏DQN实验
  5. ISO光盘镜像导入到U盘的方法
  6. 添加五笔输入法(默认的)windows sever 2012 r2
  7. CNVD-2020-10487复现(Apache Tomcat文件包含漏洞)
  8. 基于R16标准的5G电力高精度授时解决方案PTP授时方案
  9. linux学习资料(转帖收藏)
  10. 团队管理系列-任务分配