- ImagesPipeline:-只需要将img的src的属性值进行解析,提交到管道,管道就会对图片的src进行请求发送获取图片的二次请求
-需求:爬取站长素材中的高清图片-使用流程:-数据解析(图片的地址)-将存储图片地址的item提交到制定的管道类-在管道文件中自定制个基于ImagesPipeLine的一个管道类- get_media_request- file_path- item_completed-在配置文件中:-指定图片存储的目录:IMAGES_STORE = './ imgs'-指定开启的管道:自定制的管道类

数据解析(图片的地址):

import scrapyfrom imgsPro.items import ImgsproItemclass ImgSpider(scrapy.Spider):name = 'img'# allowed_domains = ['www.xxx.com']start_urls = ['https://sc.chinaz.com/tupian/']def parse(self, response):div_list = response.xpath('//*[@id="container"]/div')for div in div_list:# 使用伪属性src2img_src = 'https:' + div.xpath('./div/a/img/@src2').extract_first()# print(img_src)# 将存储图片地址的item提交到制定的管道类item = ImgsproItem()item['img_src'] = img_srcyield item

在管道文件中自定制个基于ImagesPipeLine的一个管道类

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html# useful for handling different item types with a single interface
from itemadapter import ItemAdapter# class ImgsproPipeline:
#     def process_item(self, item, spider):
#         return itemfrom scrapy.pipelines.images import ImagesPipeline
import scrapyclass ImgproPipeline(ImagesPipeline):def get_media_requests(self, item, info):yield scrapy.Request(item['img_src'])# 定制图片的名称def file_path(self, request, response=None, info=None):img_name = request.url.split('/')[-1]return img_namedef item_completed(self, results, item, info):return item  # 该返回值会传递给下一个即将被执行的管道类

-在配置文件中:
-指定图片存储的目录:IMAGES_STORE = ‘./ imgs’
-指定开启的管道:自定制的管道类

# 指定图片存储的目录
IMAGES_STORE = './imgs'
ITEM_PIPELINES = {'imgsPro.pipelines.ImgproPipeline': 300,
}

scrapy图片爬取(爬取站长素材中的高清图片)相关推荐

  1. python爬取千图网图片并保存_Python数据分析与挖掘实战-课程作业5爬取千图网某个频道的高清图片...

    作业要求:爬取千图网(http://www.58pic.com)某个频道的高清图片 作业难点:正确找到图片链接并用正则表达式写出 代码如下: """ Created on ...

  2. matlab如何导入大量的图片_本期介绍:如何在论文中插入高清的图片

    科研资源库 学术论文: ➤本期介绍如何在论文中插入高清的图片! ➤ 发现用下面的方法, 可以得到高清的矢量图, 非常好用, 推荐给需要的同学! 加工学术论文时,尤其是理工类论文,很多配图是Matlab ...

  3. 小Tips||如何提取论文中的高清图片?

    我们平时在做各种汇报的时候,经常会引用各种图表,部分文章会单独提供图表作为补充材料,而大多数文章会把图放在原文中,我们在提取的时候,多采用截屏的方式,清晰度往往会比较低,不仅影响观感,还有可能被(导师 ...

  4. python爬取王者皮肤_Python爬取王者荣耀英雄皮肤高清图片

    前言 临下班前,看到群里有人在讨论用王者农药的一些皮肤作为电脑的壁纸,什么高清的,什么像素稍低的,网上查了一手,也有,但像素都不一样,所以,我就想着,自己去官网直接爬他的高清皮肤就好了,然后就有了这边 ...

  5. 下载高清图片素材,就上这6个网站,免费还能商用

    图片素材网站我已经推荐过很多了,今天就再给大家推荐6个高清图片素材网,免费下载哦~建议收藏起来. 1.菜鸟图库 https://www.sucai999.com/pic.html?v=NTYwNDUx ...

  6. 找高清图片素材,这8个网站就够了

    相信很多设计师.自媒体都为找素材而烦恼,很多朋友不知道去哪里找图片素材,找到了版权还不明确,怕造成侵权,今天我就把我独家珍藏的8个图片素材网站分享给大家,免费下载,还可以商用,建议收藏起来~ 1.菜鸟 ...

  7. 5个高清图片素材网站,免费商用,赶紧收藏~

    本期给大家推荐6个超好用的高清图片素材网站,免费下载,还可以商用,建议收藏起来! 1.菜鸟图库 风景图片,高清风景图片大全 - 菜鸟图库 菜鸟图库是我推荐过很多次的一个设计素材网站,除了设计类,还有很 ...

  8. selenium小练习:自写利用 selenium 下载Google高清图片、大众点评自动传头像/评论

    一. selenium 下载高清图片 1.版本介绍 python 3.7.4 selenium = 3.141.0 chromedriver=84.0.4147.30 2.保存 base64 图片格式 ...

  9. 简笔画花边边框超简单_简单花边边框简笔画高清图片

    简笔画当中有些人想要画简单的花边图.你知道花边的简笔有哪些吗?今天先和学习啦小编一起欣赏这些简单花边边框简笔画高清图片,希望你会有所收获的. 简单花边边框简笔画高清图片欣赏 简单花边边框简笔画高清图片 ...

最新文章

  1. linux使用qemu教程,Linux:使用 QEMU 测试 U-BOOT的步骤
  2. 神经网络与深度学习——TensorFlow2.0实战(笔记)(四)(python字典和集合)
  3. php cgi模块,PHP5模块和CGI
  4. 迫不及待,英特尔推特“官宣”GPU发布时间
  5. oracle帮助系统,Oracle1 0g扩展的帮助文件的安装
  6. python解压bz2文件命令_解压缩bz2文件
  7. java计算机毕业设计企业员工档案管理源码+系统+数据库+lw文档+mybatis+运行部署
  8. 在阿里云轻量应用服务器上安装爱快软路由
  9. 【​观察】加速“云矩阵”生态落地,京东云能否成为新变量?
  10. 【Python】Windows微信清理工具
  11. android studio识别不到夜神模拟器怎么办
  12. 计算机视觉(视频追踪检测分类、监控追踪)常用测试数据集
  13. TEE中TA和CA的编译
  14. 2022小红书搜索词布局实战手册
  15. 社团活动之“996工作制”
  16. 洞泾智能机器人产业基地_在全球人工智能产业版图中努力树起“G60旗帜”
  17. springboot萌宠宠物网店的开发与设计 毕业设计-附源码011042
  18. 如何关闭 Airpods 在 Mac 与 iPhone 之间的自动切换
  19. java 盲水印_GitHub - Yxiaojian/BlindWaterMark: Java盲水印
  20. Office2013安装出错解决方法

热门文章

  1. Studying at SUST
  2. 微电网数字孪生 | 智能时代,部署源网荷储一体化管控平台
  3. php配置邮件服务器,xmail的安装及配置_邮件服务器
  4. 房地产调控不当必将引发中国经济危机,中国的经济危机不是不会到来,而是尚未到来,是滞后到来,也将由房地产泡沫的破灭而引发(原创首发,深度好文)——何学林房地产大策划之六
  5. 什么是反射,反射能干嘛?
  6. web widget(微件)
  7. 茶学领域如何用的上计算机,优秀茶学论文参考文献 茶学专著类参考文献哪里找...
  8. python狗品种识别_kaggle之本地运行识别狗品种
  9. 静下心来的刘强东太可怕!三个月,京东市值重回巅峰!
  10. 【NOIP模拟】旷野大计算