[Python爬虫案例]-中国古诗网

看懂代码，你需要相关知识
爬虫必备知识
只是想得到目标的话，直接运行就好了

import  requests
import  re
import  jsondef parse_page(url):headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36'}reeponse = requests.get(url,headers)text = reeponse.text# print(text)# 此处使用非贪婪模式，因为如果采用贪婪模式，re会匹配到整篇html最后一个</b>才开始“截断”，把之前的部分都当作一个被匹配的整体，最终只能获取到最后一个符合要求的字符串#标题获取titles = re.findall('<div\sclass="cont">.*?<b>(.*?)</b>',text,re.DOTALL)#朝代获取dynasties = re.findall('<p\sclass="source">.*?<a.*?>(.*?)</a>',text,re.DOTALL)#作者获取authors = re.findall('<p\sclass="source">.*?<a.*?</span><a.*?>(.*?)</a></p>',text,re.DOTALL)#文章内容获取contents_tags = re.findall('<div\sclass="contson".*?>(.*?)</div>',text,re.DOTALL)contents = []for content in contents_tags:#去除标签字符x = re.sub('<.*?>','',content)#去除空格x = x.strip()#加入列表contents.append(x.strip())Poems=[]#列表转换成字典常用方法：for value in zip (序列解包)for value in zip(titles,dynasties,authors,contents):title, dynasty, author, content = valuepoems= {'title':title ,'dynasties':dynasty,'author':author,'content':content}#拼接成完整列表Poems.append(poems)#列表写入json文件with open('poems.json', 'w',encoding='utf-8') as fp:json.dump(Poems,fp,ensure_ascii=False)def main():url = 'https://www.gushiwen.org/default_1.aspx'parse_page(url)if __name__ == '__main__':main()

[Python爬虫案例]-中国古诗网相关推荐

python爬虫获取中国天气网天气数据 requests BeautifulSoup re
python获取中国天气网天气数据:http://www.weather.com.cn/textFC/henan.shtml main.py # -*- coding: utf-8 -*- impor ...
php爬虫实时更新天气,Python爬虫获取中国天气网天气预报数据[2018-06-12更新]
实时天气显示建议用Domoticz内置的DarkSky. 天气预报只能自己获取. 此脚本获取中国天气网七日预报,设备需要自建虚拟硬件,添加虚拟设备,设备类型选择Text文本. 效果: 屏幕快照 201 ...
Python爬虫_某宝网案例
Python爬虫_某宝网案例一.导入第三方库,确定url,定义headers ,伪装爬虫代码 import requests url = 'https://s.taobao.com/search?q ...
python爬虫爬猎聘网获取多条职责描述中有Linux需求的招聘信息
python爬虫爬猎聘网获取多条职责描述中有Linux需求的招聘信息下列是我爬虫的作业摘要随着现代化社会的飞速发展,网络上巨大信息量的获取给用户带来了许多的麻烦.由于工作和生活节奏的需求,人们 ...
Java爬虫获取中国天气网7日天气预报
Java爬虫获取中国天气网7日天气预报前言工具准备爬取数据获取日期和星期获取天气描述获取温度范围获取风向及风力完整代码引用前言项目需要获取7日天气预报,免费好用的接口寻觅不到, ...
python爬虫简单实例-最简单的Python爬虫案例，看得懂说明你已入门，附赠教程
原标题:最简单的Python爬虫案例,看得懂说明你已入门,附赠教程这是最简单的Python爬虫案例,如果你能看懂,那么请你保持信心,因为你已经入门Python爬虫,只要带着信心和努力,你的技术能力在 ...
在当当买了python怎么下载源代码-python爬虫爬取当当网
[实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...
python爬虫案例-Python爬虫案例集合
原标题:Python爬虫案例集合 urllib2 urllib2是Python中用来抓取网页的库,urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用) 在python2.x里 ...
python爬虫案例——百度贴吧数据采集
全栈工程师开发手册 (作者:栾鹏) python教程全解 python爬虫案例--百度贴吧数据采集通过python实现百度贴吧页面的内容采集是相对来说比较容易的,因为百度贴吧不需要登陆,不需要coo ...

[Python爬虫案例]-中国古诗网

[Python爬虫案例]-中国古诗网

[Python爬虫案例]-中国古诗网相关推荐

最新文章

热门文章