Python爬虫之scrapy框架360全网图片爬取

在这里先祝贺大家程序员节快乐，在此我也有一个好消息送给大家，本人已开通了微信公众号，我会把资源放在公众号上，还请大家小手动一动，关注过微信公众号，回复1024即可获得python的零基础教学哦。

阅读目录

Python爬虫之scrapy框架360全网图片爬取
前言
一、分析网站？
- 1.第一大分类
- 2.分页原理
- 3.ajax解析
二、创建文件
- 1.创建我们的images项目
- 2.源码解读
- 3.图片展示
总结

前言

我们先进入今天的主题，我们都知道现在python爬虫的手段越来越多，比如通用爬虫，模拟登陆，js逆向，app爬虫，自动化爬虫等。
今天我们就模拟一下我们通用爬虫，爬取360全网图片

首先我们要准备以下库

scrapy 2.4.0 库

一、分析网站？

我们的目标url=‘https://image.so.com/z?ch=beauty’
下面为两个图片简单分析了一下每个模块请求是不一样的。这个时候我们可以清楚获得第一个分类。

1.第一大分类

menus = ['beauty', 'copyright', 'wallpaper#/', 'design#/', 'funny', 'news', 'art', 'car', 'photography', 'food','home', 'pet']

2.分页原理

通过我们的f12可以清楚的看到此网站的是ajax渲染的而且以30为一个分页，我们知道了分页的原理。

3.ajax解析

这里要按我的点击，在Preview里会出来我们的json数据。标注的是我们要爬取的内容

二、创建文件

1.创建我们的images项目

scrapy startproject images

进行imaes项目里进行配置我们初始化的爬虫

cd images

scrapy genspider image image.so.com

2.源码解读

这个时候我们打开我们pycharm 进行我们的编写代码

image.py

import json
import re
from urllib.parse import urlencodeimport scrapy
from images.items import ImagesItemclass ImageSpider(scrapy.Spider):# 爬虫名name = 'image'# 域名allowed_domains = ['image.so.com']# start_urls = ['https://image.so.com/zjl?']def start_requests(self):# 拼接的urlurl='https://image.so.com/zjl?'# 菜单menus = ['beauty', 'copyright', 'wallpaper#/', 'design#/', 'funny', 'news', 'art', 'car', 'photography', 'food','home', 'pet']for menu in menus:data = {'ch': menu,# 'sn': page * 30,'listtype': 'new','temp': '1'}for page in range(1,30):data['sn']=page*30base_url = url+urlencode(data)yield scrapy.Request(base_url,callback=self.parse)def parse(self, response, **kwargs):# 通过json库读取数据datas =json.loads(response.text)# 遍历数据for data in  datas['list']:print(data['imgurl'])item=ImagesItem()item['id']=data['id']               #图片iditem['imageurl']=data['qhimg_url']         #图片下载地址item['qhimg_thumb']=data['qhimg_thumb']   #图片缩略图下载a=data['title']# 去除非法法图片名title = re.sub('[\/:*?"<>|]', '-', a)item['title'] =title   #图片标题yield item

items.py

import scrapyclass ImagesItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()id=scrapy.Field()           #设置图片idimageurl=scrapy.Field()     #设置图片urltitle =scrapy.Field()       #设置图片标题qhimg_thumb=scrapy.Field()  #设置图片的缩略图地址pass

main.py

from scrapy import cmdline
cmdline.execute(('scrapy crawl image')

settings.py

ROBOTSTXT_OBEY = False
#启动图片管道
ITEM_PIPELINES = {'images.pipelines.ImagePipeline': 300,
}
IMAGES_STORE='./imagesss'  #这个是图片存放路径
#启动中间件
SPIDER_MIDDLEWARES = {'images.middlewares.ImagesSpiderMiddleware': 543,
}

middlewares.py

from scrapy import signals
from fake_useragent import UserAgent
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware
#上面引用文件放最上面
#添加在最后
class UseAgentMiddleware(UserAgentMiddleware):def process_request(self, request, spider):ua =UserAgent()request.headers['User-Agent'] = ua.random

3.图片展示

总结

以上就是今天要讲的内容，这次介绍了scrapy对大型网站所有图片的采集，由于scrapy爬取速度非常快，很适合应用于大型数据爬取。

人生苦短，我用python