创建项目三步

scrapy startproject image360
cd image360
scrapy genspider image

首先还是先把服从机器人协议改成False
settings.py

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

定义图片路由和名字
items.py

import scrapy
class Image360Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()# 定义图片的URLimage_urls = scrapy.Field()# 定义图片名title = scrapy.Field()pass

开始编辑项目文件
image.py

# -*- coding: utf-8 -*-
import scrapy,json
from ..items import Image360Itemclass ImageSpider(scrapy.Spider):name = 'image'# allowed_domains = ['image.com']start_urls = ['https://image.so.com/zjl?ch=beauty&sn=90&listtype=new&temp=1']def parse(self, response):# 将json格式数据转换成python类型data_dic = json.loads(response.text)# 实例化对象item = Image360Item()# 获取图片URL并存入image_urlsitem['image_urls'] = [i['qhimg_url'] for i in data_dic['list']]# 注意:item中的image_urls一定需要是一个列表# 获取图片名item['title'] = [i['title'] for i in data_dic['list']]yield itempass

配置pipelines文件
pipelines.py

import scrapy
from scrapy.pipelines.images import ImagesPipeline
class Image360Pipeline(ImagesPipeline):# 重写get_media_requests()def get_media_requests(self, item, info):for image_url in item['image_urls']:yield scrapy.Request(url=image_url,meta={'index':item['image_urls'].index(image_url),'item':item})passpass# 重写file_path()def file_path(self, request, response=None, info=None):# 获取itemitem = request.meta['item']# 获取索引index = request.meta['index']# 保存文件return 'full/%s.jpg' % (item['title'][index])passpass

回到settings里,激活管道文件

ITEM_PIPELINES = {'image360.pipelines.Image360Pipeline': 300,
}
# 配置图片存放的路径
IMAGES_STORE = 'images'

爬虫 scrapy框架 爬取360图片相关推荐

  1. 使用scrapy框架爬取斗鱼图片

    使用scrapy框架爬取斗鱼图片 首先我们先认识一下框架 scrapy-Scrapy是Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scr ...

  2. Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

    这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...

  3. scrapy框架爬取网站图片

    使用scrapy 框架爬取彼岸图库 前言: 这两天在网上学习了一下scrapy框架,发现及其好用,把爬虫步骤分的细细的.所以写了一个简单项目回顾一下并分享给大家^ . ^ 源码我已经放到Github了 ...

  4. Scrapy框架爬取昵图网图片

    Scrapy 图片爬虫构建思路为: 1. 分析网站 2. 选择爬取方式和策略 3. 创建爬虫项目-->定义items 4. 编写爬虫文件 5. 调试pipelines与settings 6. 调 ...

  5. python爬虫scrapy框架爬取网页数据_Scrapy-Python

    scrapy Scrapy:Python的爬虫框架 实例Demo 抓取:汽车之家.瓜子.链家 等数据信息 版本+环境库 Python2.7 + Scrapy1.12 初窥Scrapy Scrapy是一 ...

  6. 爬虫——scrapy框架爬取多个页面电影的二级子页面的详细信息

    文章目录 需求: 总结: 代码: movieinfo.py items.py middleware.py pipelines.py 结果: 附加: crawlspider可以改进: 需求: scrap ...

  7. python爬虫scrapy框架爬取糗妹妹段子首页

    声明:本文仅为学习爬虫,请勿商业和恶意攻击网站,本文所有解释权归作者. 本文分别用两种方法把获取的段子信息存储到了本地,分别是txt文件和json文件, txt文件比较简单,生成字典后用命令直接执行即 ...

  8. python爬虫库scrapy_使用Python爬虫Scrapy框架爬取数据

    时隔数月,国庆期间想做个假期旅游的分析展示. 1.通过Python爬取旅游网站上数据,并存储到数据库 2.通过Echart/FineReport/Superset等数据分析工具对数据展示 环境: Wi ...

  9. 爬虫scrapy框架 爬取一药网

    cmd 命令创建项目 scrapy startproject yiyaowang cd yiyaowang scrapy genspider yaowang yaowang.com 先进入settin ...

最新文章

  1. 如何在O(1)的时间里删除单链表的结点
  2. log4j.properties
  3. copyproperties爆红_BeanUtils.copyProperties复制失败探究
  4. 聊一聊Android的消息机制
  5. dbEntry.net CK.K的高级应用
  6. oracle 触发器 和 常用内置程序包
  7. Spring Boot + Mybatis 实现动态数据源
  8. html中加入scrip代码,HTML script 标签 | 菜鸟教程
  9. Flask的状态保持和上下文管理
  10. logback.xml中MaxHistory日志文件保留天数
  11. 强连通分量算法(2)
  12. 设计模式GOF23之单例模式
  13. phpwind升级php7,7.3版本下载超30万次 PHPWind7 终极版开放下载
  14. android GPS开发
  15. angular4之管道
  16. 算法学习(二十)——GAE
  17. ActiveMQ实现削峰填谷
  18. xp系统怎么添加wifi连接服务器,XP系统怎么连接无线路由器
  19. 我的世界服务器无限血,我的世界生物血量无限指令 | 手游网游页游攻略大全
  20. 切线空间(Tangent Space) 的计算与应用

热门文章

  1. 180119 杂项-生物特征识别原理和绕过
  2. delete 后加 limit
  3. 技术分享 | 黑盒测试方法论—边界值
  4. 谷歌的“神秘”小纸盒,居然是个人脸检测相机!
  5. 常用HTTP抓包工具Fiddler使用的12个小技巧,值得收藏!
  6. python3:小练习
  7. Leetcode-标签为Tree 226. Invert Binary Tree
  8. redisTemplate删除key的方法
  9. 自动出题机c语言compute,小学数学自动出题工具下载-幼儿园小学数学自动出题机下载v2.0-西西软件下载...
  10. 【HTML】学习笔记——表单、框架