[Python爬虫案例]-中国古诗网

看懂代码,你需要相关知识
爬虫必备知识
只是想得到目标的话,直接运行就好了

import  requests
import  re
import  jsondef parse_page(url):headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36'}reeponse = requests.get(url,headers)text = reeponse.text# print(text)# 此处使用非贪婪模式,因为如果采用贪婪模式,re会匹配到整篇html最后一个</b>才开始“截断”,把之前的部分都当作一个被匹配的整体,最终只能获取到最后一个符合要求的字符串#标题获取titles = re.findall('<div\sclass="cont">.*?<b>(.*?)</b>',text,re.DOTALL)#朝代获取dynasties = re.findall('<p\sclass="source">.*?<a.*?>(.*?)</a>',text,re.DOTALL)#作者获取authors = re.findall('<p\sclass="source">.*?<a.*?</span><a.*?>(.*?)</a></p>',text,re.DOTALL)#文章内容获取contents_tags = re.findall('<div\sclass="contson".*?>(.*?)</div>',text,re.DOTALL)contents = []for content in contents_tags:#去除标签字符x = re.sub('<.*?>','',content)#去除空格x = x.strip()#加入列表contents.append(x.strip())Poems=[]#列表转换成字典常用方法:for value in zip (序列解包)for value in zip(titles,dynasties,authors,contents):title, dynasty, author, content = valuepoems= {'title':title ,'dynasties':dynasty,'author':author,'content':content}#拼接成完整列表Poems.append(poems)#列表写入json文件with open('poems.json', 'w',encoding='utf-8') as fp:json.dump(Poems,fp,ensure_ascii=False)def main():url = 'https://www.gushiwen.org/default_1.aspx'parse_page(url)if __name__ == '__main__':main()

[Python爬虫案例]-中国古诗网相关推荐

  1. python爬虫获取中国天气网天气数据 requests BeautifulSoup re

    python获取中国天气网天气数据:http://www.weather.com.cn/textFC/henan.shtml main.py # -*- coding: utf-8 -*- impor ...

  2. php爬虫实时更新天气,Python爬虫获取中国天气网天气预报数据[2018-06-12更新]

    实时天气显示建议用Domoticz内置的DarkSky. 天气预报只能自己获取. 此脚本获取中国天气网七日预报,设备需要自建虚拟硬件,添加虚拟设备,设备类型选择Text文本. 效果: 屏幕快照 201 ...

  3. Python爬虫_某宝网案例

    Python爬虫_某宝网案例 一.导入第三方库,确定url,定义headers ,伪装爬虫代码 import requests url = 'https://s.taobao.com/search?q ...

  4. python爬虫爬猎聘网获取多条职责描述中有Linux需求的招聘信息

    python爬虫爬猎聘网获取多条职责描述中有Linux需求的招聘信息 下列是我爬虫的作业 摘 要 随着现代化社会的飞速发展,网络上巨大信息量的获取给用户带来了许多的麻烦.由于工作和生活节奏的需求,人们 ...

  5. Java爬虫 获取中国天气网7日天气预报

    Java爬虫 获取中国天气网7日天气预报 前言 工具准备 爬取数据 获取日期和星期 获取天气描述 获取温度范围 获取风向及风力 完整代码 引用 前言 项目需要获取7日天气预报,免费好用的接口寻觅不到, ...

  6. python爬虫简单实例-最简单的Python爬虫案例,看得懂说明你已入门,附赠教程

    原标题:最简单的Python爬虫案例,看得懂说明你已入门,附赠教程 这是最简单的Python爬虫案例,如果你能看懂,那么请你保持信心,因为你已经入门Python爬虫,只要带着信心和努力,你的技术能力在 ...

  7. 在当当买了python怎么下载源代码-python爬虫爬取当当网

    [实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...

  8. python爬虫案例-Python爬虫案例集合

    原标题:Python爬虫案例集合 urllib2 urllib2是Python中用来抓取网页的库,urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) 在python2.x里 ...

  9. python爬虫案例——百度贴吧数据采集

    全栈工程师开发手册 (作者:栾鹏) python教程全解 python爬虫案例--百度贴吧数据采集 通过python实现百度贴吧页面的内容采集是相对来说比较容易的,因为百度贴吧不需要登陆,不需要coo ...

最新文章

  1. python判断一个数是整数、浮点数还是字符串
  2. Ceph分布式存储高性能设计
  3. Java构造和解析Json数据之org.json
  4. Hyperset(排序+二分)
  5. 【模板】分散层叠算法(P6466)
  6. 产品经理业务流程图的绘制流程分享
  7. zabbix监控硬盘
  8. python自动化常用模块_Python自动化之常用模块
  9. python中的counter函数_Python的 counter内置函数,统计文本中的单词数量
  10. 盘点VB编程重要知识点集合。
  11. Axure字体图标元件库 (FontAwesome v5.15.3 Free版)
  12. thinkpad systemupdate 下载软件存放的位置
  13. 抓取systrace
  14. Laravel使用Seeder自动填充数据
  15. 深度学习之目标检测--Pytorch实战
  16. 5G向5.5G演进,变化是什么?
  17. mysqlclient安装失败解决方案
  18. 屹立千年,只为你一个回眸
  19. 翻转课堂,让传统的以教为中心变成以学中心
  20. Flex RichClient Solution by MacroMedia

热门文章

  1. 吃了这个开源小玩意让单片机开发和Arduino一样高效
  2. 云计算考试版本1.0
  3. 【代码随想录二刷】Day21-二叉树-C++
  4. 图片如何裁剪出想要的大小?这几种裁剪方法分享给大家
  5. Python 1-07 数字
  6. C#使用NPOI操作Excel错误解决
  7. Handsontable - getSourceData 和 getData 区别
  8. python networkx库分析newmovies数据集
  9. Java //PP2.6 编写一个应用程序,将英里转换为千米(1英里等于1.60935千米)。以浮点数类型读取用户输入的英里数
  10. ElasticSearch学习笔记-ngram、中文拼音、简繁体搜索记录