爬虫 scrapy框架爬取360图片

创建项目三步

scrapy startproject image360
cd image360
scrapy genspider image

首先还是先把服从机器人协议改成False
settings.py

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

定义图片路由和名字
items.py

import scrapy
class Image360Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()# 定义图片的URLimage_urls = scrapy.Field()# 定义图片名title = scrapy.Field()pass

开始编辑项目文件
image.py

# -*- coding: utf-8 -*-
import scrapy,json
from ..items import Image360Itemclass ImageSpider(scrapy.Spider):name = 'image'# allowed_domains = ['image.com']start_urls = ['https://image.so.com/zjl?ch=beauty&sn=90&listtype=new&temp=1']def parse(self, response):# 将json格式数据转换成python类型data_dic = json.loads(response.text)# 实例化对象item = Image360Item()# 获取图片URL并存入image_urlsitem['image_urls'] = [i['qhimg_url'] for i in data_dic['list']]# 注意：item中的image_urls一定需要是一个列表# 获取图片名item['title'] = [i['title'] for i in data_dic['list']]yield itempass

配置pipelines文件
pipelines.py

import scrapy
from scrapy.pipelines.images import ImagesPipeline
class Image360Pipeline(ImagesPipeline):# 重写get_media_requests()def get_media_requests(self, item, info):for image_url in item['image_urls']:yield scrapy.Request(url=image_url,meta={'index':item['image_urls'].index(image_url),'item':item})passpass# 重写file_path()def file_path(self, request, response=None, info=None):# 获取itemitem = request.meta['item']# 获取索引index = request.meta['index']# 保存文件return 'full/%s.jpg' % (item['title'][index])passpass

回到settings里，激活管道文件

ITEM_PIPELINES = {'image360.pipelines.Image360Pipeline': 300,
}
# 配置图片存放的路径
IMAGES_STORE = 'images'

爬虫 scrapy框架爬取360图片相关推荐

使用scrapy框架爬取斗鱼图片
使用scrapy框架爬取斗鱼图片首先我们先认识一下框架 scrapy-Scrapy是Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scr ...
Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下创建项目 sc ...
scrapy框架爬取网站图片
使用scrapy 框架爬取彼岸图库前言: 这两天在网上学习了一下scrapy框架,发现及其好用,把爬虫步骤分的细细的.所以写了一个简单项目回顾一下并分享给大家^ . ^ 源码我已经放到Github了 ...
Scrapy框架爬取昵图网图片
Scrapy 图片爬虫构建思路为: 1. 分析网站 2. 选择爬取方式和策略 3. 创建爬虫项目-->定义items 4. 编写爬虫文件 5. 调试pipelines与settings 6. 调 ...
python爬虫scrapy框架爬取网页数据_Scrapy-Python
scrapy Scrapy:Python的爬虫框架实例Demo 抓取:汽车之家.瓜子.链家等数据信息版本+环境库 Python2.7 + Scrapy1.12 初窥Scrapy Scrapy是一 ...
爬虫——scrapy框架爬取多个页面电影的二级子页面的详细信息
文章目录需求: 总结: 代码: movieinfo.py items.py middleware.py pipelines.py 结果: 附加: crawlspider可以改进: 需求: scrap ...
python爬虫scrapy框架爬取糗妹妹段子首页
声明:本文仅为学习爬虫,请勿商业和恶意攻击网站,本文所有解释权归作者. 本文分别用两种方法把获取的段子信息存储到了本地,分别是txt文件和json文件, txt文件比较简单,生成字典后用命令直接执行即 ...
python爬虫库scrapy_使用Python爬虫Scrapy框架爬取数据
时隔数月,国庆期间想做个假期旅游的分析展示. 1.通过Python爬取旅游网站上数据,并存储到数据库 2.通过Echart/FineReport/Superset等数据分析工具对数据展示环境: Wi ...
爬虫scrapy框架爬取一药网
cmd 命令创建项目 scrapy startproject yiyaowang cd yiyaowang scrapy genspider yaowang yaowang.com 先进入settin ...

爬虫 scrapy框架爬取360图片

爬虫 scrapy框架爬取360图片相关推荐

最新文章

热门文章

爬虫 scrapy框架 爬取360图片

爬虫 scrapy框架 爬取360图片相关推荐

最新文章

热门文章

爬虫 scrapy框架爬取360图片

爬虫 scrapy框架爬取360图片相关推荐