[Python爬虫案例]-中国古诗网
[Python爬虫案例]-中国古诗网
看懂代码,你需要相关知识
爬虫必备知识
只是想得到目标的话,直接运行就好了
import requests
import re
import jsondef parse_page(url):headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36'}reeponse = requests.get(url,headers)text = reeponse.text# print(text)# 此处使用非贪婪模式,因为如果采用贪婪模式,re会匹配到整篇html最后一个</b>才开始“截断”,把之前的部分都当作一个被匹配的整体,最终只能获取到最后一个符合要求的字符串#标题获取titles = re.findall('<div\sclass="cont">.*?<b>(.*?)</b>',text,re.DOTALL)#朝代获取dynasties = re.findall('<p\sclass="source">.*?<a.*?>(.*?)</a>',text,re.DOTALL)#作者获取authors = re.findall('<p\sclass="source">.*?<a.*?</span><a.*?>(.*?)</a></p>',text,re.DOTALL)#文章内容获取contents_tags = re.findall('<div\sclass="contson".*?>(.*?)</div>',text,re.DOTALL)contents = []for content in contents_tags:#去除标签字符x = re.sub('<.*?>','',content)#去除空格x = x.strip()#加入列表contents.append(x.strip())Poems=[]#列表转换成字典常用方法:for value in zip (序列解包)for value in zip(titles,dynasties,authors,contents):title, dynasty, author, content = valuepoems= {'title':title ,'dynasties':dynasty,'author':author,'content':content}#拼接成完整列表Poems.append(poems)#列表写入json文件with open('poems.json', 'w',encoding='utf-8') as fp:json.dump(Poems,fp,ensure_ascii=False)def main():url = 'https://www.gushiwen.org/default_1.aspx'parse_page(url)if __name__ == '__main__':main()
[Python爬虫案例]-中国古诗网相关推荐
- python爬虫获取中国天气网天气数据 requests BeautifulSoup re
python获取中国天气网天气数据:http://www.weather.com.cn/textFC/henan.shtml main.py # -*- coding: utf-8 -*- impor ...
- php爬虫实时更新天气,Python爬虫获取中国天气网天气预报数据[2018-06-12更新]
实时天气显示建议用Domoticz内置的DarkSky. 天气预报只能自己获取. 此脚本获取中国天气网七日预报,设备需要自建虚拟硬件,添加虚拟设备,设备类型选择Text文本. 效果: 屏幕快照 201 ...
- Python爬虫_某宝网案例
Python爬虫_某宝网案例 一.导入第三方库,确定url,定义headers ,伪装爬虫代码 import requests url = 'https://s.taobao.com/search?q ...
- python爬虫爬猎聘网获取多条职责描述中有Linux需求的招聘信息
python爬虫爬猎聘网获取多条职责描述中有Linux需求的招聘信息 下列是我爬虫的作业 摘 要 随着现代化社会的飞速发展,网络上巨大信息量的获取给用户带来了许多的麻烦.由于工作和生活节奏的需求,人们 ...
- Java爬虫 获取中国天气网7日天气预报
Java爬虫 获取中国天气网7日天气预报 前言 工具准备 爬取数据 获取日期和星期 获取天气描述 获取温度范围 获取风向及风力 完整代码 引用 前言 项目需要获取7日天气预报,免费好用的接口寻觅不到, ...
- python爬虫简单实例-最简单的Python爬虫案例,看得懂说明你已入门,附赠教程
原标题:最简单的Python爬虫案例,看得懂说明你已入门,附赠教程 这是最简单的Python爬虫案例,如果你能看懂,那么请你保持信心,因为你已经入门Python爬虫,只要带着信心和努力,你的技术能力在 ...
- 在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
- python爬虫案例-Python爬虫案例集合
原标题:Python爬虫案例集合 urllib2 urllib2是Python中用来抓取网页的库,urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) 在python2.x里 ...
- python爬虫案例——百度贴吧数据采集
全栈工程师开发手册 (作者:栾鹏) python教程全解 python爬虫案例--百度贴吧数据采集 通过python实现百度贴吧页面的内容采集是相对来说比较容易的,因为百度贴吧不需要登陆,不需要coo ...
最新文章
- python判断一个数是整数、浮点数还是字符串
- Ceph分布式存储高性能设计
- Java构造和解析Json数据之org.json
- Hyperset(排序+二分)
- 【模板】分散层叠算法(P6466)
- 产品经理业务流程图的绘制流程分享
- zabbix监控硬盘
- python自动化常用模块_Python自动化之常用模块
- python中的counter函数_Python的 counter内置函数,统计文本中的单词数量
- 盘点VB编程重要知识点集合。
- Axure字体图标元件库 (FontAwesome v5.15.3 Free版)
- thinkpad systemupdate 下载软件存放的位置
- 抓取systrace
- Laravel使用Seeder自动填充数据
- 深度学习之目标检测--Pytorch实战
- 5G向5.5G演进,变化是什么?
- mysqlclient安装失败解决方案
- 屹立千年,只为你一个回眸
- 翻转课堂,让传统的以教为中心变成以学中心
- Flex RichClient Solution by MacroMedia
热门文章
- 吃了这个开源小玩意让单片机开发和Arduino一样高效
- 云计算考试版本1.0
- 【代码随想录二刷】Day21-二叉树-C++
- 图片如何裁剪出想要的大小?这几种裁剪方法分享给大家
- Python 1-07 数字
- C#使用NPOI操作Excel错误解决
- Handsontable - getSourceData 和 getData 区别
- python networkx库分析newmovies数据集
- Java //PP2.6 编写一个应用程序,将英里转换为千米(1英里等于1.60935千米)。以浮点数类型读取用户输入的英里数
- ElasticSearch学习笔记-ngram、中文拼音、简繁体搜索记录