scrapy垂直爬取及多个item下载问题(爬取某个写真网)

利用scrapy爬虫时我们经常会遇到列表页可以爬取一些信息，详情页又可以爬到一些信息。同时详情页的url需要在列表页请求之后才可以获得。因此就需要垂直爬取，也就是先请求获得详情页的html，解析出详情页后再去请求以获得详情页的内容。同时，如果此时需要保存一些数据，如：列表页保存几个数据，详情页也需要保存几个数据，此时就需要设置多个item来获得。因此，本文记录了遇到垂直爬取与多个item保存并且下载某个item中内容的方法。

1 垂直爬取

垂直爬取其实比较简单，主要是就是利用yield Request（）以及创建parse函数，Request去请求url将返回内容回调给parse_()函数，parse_（）函数解析产生新的url及其他内容，若想进一步请求新的url，则继续去yield Request ，从而垂直爬取下去。

import scrapy
from scrapy import Request
from xiezhen.items import XiezhenItem
import time
import random
import re
from scrapy.http import request
import math
from xiezhen.items import ModelItemclass XzSpider(scrapy.Spider):name = 'xz'allowed_domains = ['tujigu.com']def start_requests(self):for i in range(1, 2):if i == 1:url = 'https://www.tujigu.com/riben/'else:url = 'https://www.tujigu.com/riben/' + str(i) + '.html'time.sleep(random.randint(1, 3))yield Request(url=url, callback=self.parse_list)def parse_list(self, response):html = response.css('.hezi ul li')for url in html:item2 = XiezhenItem()item2['list_url'] = url.css('a::attr(href)').extract_first()item2['title'] = url.css('p.biaoti a::text ').extract_first()item2['jigou'] = url.css('p a::text').extract()[0]item2['model'] = url.css('p a::text').extract()[1]item2['biaoqian'] = url.css('p a::text').extract()[2:-1]item2['pic_num'] = url.css('span.shuliang::text ').extract()[0][:-1]time.sleep(random.random())yield item2pic_num = url.css('span.shuliang::text ').extract()[0][:-1]if int(pic_num) >= 100:page = math.ceil(int(pic_num) / 6)else:page = math.ceil(int(pic_num) / 5)for i in range(1, page + 1):if i == 1:url = item2['list_url']else:url = item2['list_url'] + str(i) + '.html'yield Request(url=url, callback=self.parse_item)def parse_item(self, response):item = ModelItem()item['pic_urls'] = response.css('.content img::attr(src)').extract()item['model'] = response.css('.tuji p a::text').extract()[-2]item['model_info'] = response.css('.tuji p::text').extract()[-1].replace('\n', '').replace("''", '')yield item

2 对于处理多个item ，首先在item中创建多个Item类，其继承于scrapy的Item。通过将两个item类分别倒入spider中，分别实例化，便可以将数据存入想要存入的item中。最后将其yield。

import scrapy
from scrapy import Itemclass ModelItem(Item):model = scrapy.Field()model_info = scrapy.Field()pic_urls = scrapy.Field()class XiezhenItem(Item):# define the fields for your item here like:# name = scrapy.Field()jigou = scrapy.Field()model = scrapy.Field()biaoqian = scrapy.Field()title = scrapy.Field()list_url = scrapy.Field()pic_num = scrapy.Field()

前边这部分并不会出现什么问题。主要问题出现在通过pipeline下载图片或文件过程中。此时需要指定Pipeline操作的是哪个item对象。代码如下：通过if isinstance（item，（想要操作的item类名）），从而选定了当下Pipeline此时操作的item。从而使得Pipeline 去下载响应item中的内容。当前在下载之前我们需要在setting中指定下载的位置，设定ITEM_PIPELINES等就可以开始下载了。其setting设置见最下。

from scrapy import Request
from xiezhen.items import ModelItem
from scrapy.exceptions import DropItem
from scrapy.pipelines.images import ImagesPipeline
# class XiezhenPipeline:
#     def process_item(self, item, spider):
#         return itemclass ImagePipeline(ImagesPipeline):# def process_item(self, item, spider):#     return itemdef get_media_requests(self, item, info):if isinstance(item, ModelItem):urls = item['pic_urls']for i in urls:yield Request(url=i)def file_path(self, request, response=None, info=None):url = request.urlfile_name = url.split('/')[-2] + url.split('/')[-1]return file_namedef item_completed(self, results, item, info):image_paths = [x['path'] for ok, x in results if ok]if not image_paths:raise DropItem('Image Download Filed')return item

IMAGES_STORE = './images'
ITEM_PIPELINES = {'xiezhen.pipelines.ImagePipeline': 1,
}

scrapy垂直爬取及多个item下载问题(爬取某个写真网)相关推荐

python 24位图转 8位_Python爬取PPT模板小工具下载-Python爬取PPT模板小工具免费版下载v1.0...
由于很多PPT抓取工具都会因为版本问题无法使用,所以论坛大神就自己写了这款Python爬取PPT模板小工具,可以帮助用户轻松获取各种PPT模板,使用的时候注意一次只能下载一种类型.软件仅供交流学习,下 ...
Scrapy 爬虫框架初体验二 —— 以一个新闻站点爬取为例
一.搭建基础 Scrapy 工程框架创建项目输入如下命令: scrapy startproject NewsSpider # 创建项目 cd NewsSpider scrapy genspider ...
scrapy中集成selenium+浏览器池实现selenium的并发爬取LCSC网站中非结构化表格数据+异步存储进mysql+完整代码
爬取https://lcsc.com/products/Connectors_365.html这个网址下所有的表格数据. 蓝色的都是要爬取的子页面,要爬取子页面里面的表格数据 ,表格数据如下: 右上角 ...
基于scrapy框架的关于58同城招聘网站信息的爬取
起因: 学校项目实训,要求我们爬取招聘网站信息并对其进行分析,在此我和大家分享一下关于我爬取58同城招聘网站信息的过程和结果~ 前期准备步骤: 1.搭建环境:首先把scrapy需要的环境搭建好,再次我 ...
Scrapy爬虫实战｜手把手教你使用CrawlSpider框架爬取数码宝贝全图鉴
大家好,之前给大家分享过Scrapy框架各组件的详细配置,今天就来更新一篇实战干货:CrawlSpider框架爬取数码宝贝全图鉴.可能本文爬的这个网站你不感兴趣,但我希望你能通过下面的爬取分析.操作中 ...
《Learning Scrapy》（中文版）第11章 Scrapyd分布式抓取和实时分析
序言第1章 Scrapy介绍第2章理解HTML和XPath 第3章爬虫基础第4章从Scrapy到移动应用第5章快速构建爬虫第6章 Scrapinghub部署第7章配置和管理第8 ...
使用Scrapy，帮你快速抓取网页数据(代码可下载)！
Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网站数据.提取结构性数据以及各种图片,非常方便.Sc ...
python爬取链家新房_Python爬虫项目--爬取链家热门城市新房
本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途) 环境 win8, python 3.7, pycharm 正文 1. 目标网站分析通过分析, 找出相关url, 确 ...
Scrapy从入门到精通(3)--使用Item封装数据
使用Item封装数据前两篇博客介绍了从页面中提取数据的方法,现在用item封装爬取到的数据 Item和Field Scrapy提供了Item和Field类,可以用他们自定义数据类,封装爬取到的数据 ...

scrapy垂直爬取及多个item下载问题(爬取某个写真网)

scrapy垂直爬取及多个item下载问题(爬取某个写真网)相关推荐

最新文章

热门文章