scrapy框架爬取古诗文网的名句

使用scrapy框架爬取名句，在这里只爬取的了名句和出处两个字段。具体解析如下：
items.py 用来存放爬虫爬取下来的数据模型，代码如下：

import scrapyclass QsbkItem(scrapy.Item):content = scrapy.Field()auth = scrapy.Field()

piplines.py 将items的模型存储到json格式的文件中，有两种方法JsonItemExporter和JsonLinesExporter

1.JsonItemExporter，这个是每次把数据添加到内存中，最后统一写入到磁盘中，好处是，存储的数据是一个满足json规则的数据，坏处是如果数据量比较大，会比较的耗费内存

2.JsonLinesItemExporter这个是每次调用export_item的时候就把这个数据存储到硬盘中，坏处是每一个字典是一行，整个文件是一个满足json格式的文件，好处是每次从处理数据的时候就直接存储到了硬盘中，这样不会对内存造成压力，数据比较安全

# 数据量多的时候写入，按行写入
from scrapy.exporters import JsonLinesItemExporterclass QsbkPipeline(object):def __init__(self):self.fp = open('mj.json', 'wb')self.exporter = JsonLinesItemExporter(self.fp, ensure_ascii=False, encoding="utf-8")def open_spider(self, spider):print("爬虫开始了、、、")def process_item(self, item, spider):self.exporter.export_item(item)return itemdef close_spider(self, spider):print("爬虫结束了、、、")

# 使用导出器
from scrapy.exporters import JsonItemExporter# 适用于数据量较少
# 下面的方法是把所有的数据都存储在item中，然后在一次性写入
# 若数据较大则会比较耗费内存
class QsbkPipeline(object):def __init__(self):self.fp = open('mj.json', 'wb')self.exporter = JsonItemExporter(self.fp, ensure_ascii=False, encoding="utf-8")# 开始写入self.exporter.start_exporting()def open_spider(self, spider):print("爬虫开始了、、、")def process_item(self, item, spider):self.exporter.export_item(item)return itemdef close_spider(self, spider):# 结束写入self.exporter.finish_exporting()print("爬虫结束了、、、")

以上方法可以二选一

settings.py 本爬虫的一些配置信息（比如请求头、多久发送一次请求、ip代理池）对settings.py文件的修改如下

# 项目名称
BOT_NAME = 'qsbk'# 爬虫应用路径
SPIDER_MODULES = ['qsbk.spiders']
NEWSPIDER_MODULE = 'qsbk.spiders'
# 是否遵循reboot.txt协议 True遵循
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
# 下载延迟
DOWNLOAD_DELAY = 2
# 设置请求头信息
# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}

gswspider.py文件，由于网站的限制，若不下载客户端的话最多只能爬取20页的内容，因此编写爬虫如下

# -*- coding: utf-8 -*-
import scrapyfrom qsbk.items import QsbkItemclass GswspiderSpider(scrapy.Spider):# 爬虫的名字name = 'gswspider'# 允许的域名allowed_domains = ['gushiwen.org']# 起始的urlstart_urls = ['https://so.gushiwen.org/mingju/default.aspx?p=1&c=&t=']domains = 'https://so.gushiwen.org'def parse(self, response):# 使用xpath解析网页all_mjs = response.xpath('//div[@class="left"]//div[@class="sons"]//div[@class="cont"]')print(len(all_mjs))for mj in all_mjs:# print(mj)# 使用get()可以从对象转化为文本# ma = {}content = mj.xpath(".//a[1]/text()").get()auth = mj.xpath(".//a[2]/text()").get()# # 变成生成器# yield maitem = QsbkItem(content=content, auth=auth)yield itemnext_url = response.xpath("//*[@id='FromPage']/div/a[1]/@href").get()print("***********************")print(next_url)'''//*[@id="FromPage"]/div/a[1]'''print("***********************")if not next_url:returnelse:p = next_url.split("?")[1].split("&")[0]if p == "p=21":returnelse:yield scrapy.Request(self.domains + next_url, callback=self.parse)

爬虫初学者，若有错误请在评论区指出或者私信我

scrapy框架爬取古诗文网的名句相关推荐

爬取古诗文网的推荐古诗
爬取古诗文网的推荐古诗思路分析完整代码结果展示思路分析本次的主要目的是练习使用正则表达式提取网页中的数据. 该网站的推荐古诗文一共有10页,页码可以在URL中进行控制,比如说,下面的URL指 ...
Python真香之爬取古诗文网
最近在学习Python相关,学习了基本的语法后想搞点事情试试,所以来爬取下古诗文网中的相关作者信息准备资料: 爬取目标:爬取古诗文网的唐代作者的信息目标分析: 一级页面是所有唐代作者的列表,点击名 ...
Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下创建项目 sc ...
Python使用网络抓包的方式，利用超级鹰平台识别验证码登录爬取古诗文网、上篇--识别验证码
Python使用网络抓包的方式,利用超级鹰平台识别验证码登录,<爬取古诗文网>. 上篇–识别验证码序言: 哈喽,各位小可爱们,我又来了,这次我新学习到的内容是python爬虫识别验证码. ...
Python实战---使用正则表达式爬取古诗文网
使用正则表达式爬取古诗文网爬取目标具体字段为: title 标题 dynasty 朝代 author 作者 content 内容 tag 标签实现代码 ''' @Description: 使用正 ...
运用Scrapy框架爬取淘车网十七万二手车数据
本篇内容将使用scrapy框架爬取淘车网所有二手车信息. 下面开始讲解下如何爬取我们想要的数据: 明确爬取目标: 首先,进入官网:https://www.taoche.com/ 进入官网发现,我们要获 ...
Scrapy框架爬取中国裁判文书网案件数据
Scrapy框架爬取中国裁判文书网案件数据项目Github地址: https://github.com/Henryhaohao/Wenshu_Spider 中国裁判文书网 - http://wens ...
Python爬虫（一）——爬取古诗文网，初识什么是爬虫
首先来说下什么是爬虫,按照百度百科的说法是:是一种按照一定规则,自动抓取万维网信息的程序或者脚本:首先它是程序,需要我们定义好规则,然后程序就会按照定义好的规则抓取网络上的信息,数据抓取下来了之后,需 ...
使用Scrapy框架爬取88读书网小说，并保存本地文件
Scrapy框架,爬取88读书网小说链接: 88读书网源码工具 python 3.7 pycharm scrapy框架教程 spider: # -*- coding: utf-8 -*- im ...

scrapy框架爬取古诗文网的名句

scrapy框架爬取古诗文网的名句相关推荐

最新文章

热门文章