Python使用Scrapy爬虫框架全站爬取图片并保存本地(@妹子图@)

大家可以在Github上clone全部源码。

Github：https://github.com/williamzxl/Scrapy_CrawlMeiziTu

Scrapy官方文档：http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html

基本上按照文档的流程走一遍就基本会用了。

Step1：

在开始爬取之前，必须创建一个新的Scrapy项目。进入打算存储代码的目录中，运行下列命令:

scrapy startproject CrawlMeiziTu

该命令将会创建包含下列内容的 tutorial 目录:

CrawlMeiziTu/scrapy.cfgCrawlMeiziTu/ __init__.py items.py pipelines.py settings.py　　　　 middlewares.py spiders/ __init__.py ... cd CrawlMeiziTu

scrapy genspider Meizitu http://www.meizitu.com/a/list_1_1.html

该命令将会创建包含下列内容的 tutorial 目录:

CrawlMeiziTu/scrapy.cfgCrawlMeiziTu/　　　　 __init__.py items.py pipelines.py settings.py　　　　 middlewares.py spiders/　　　　　　　Meizitu.py __init__.py ...

我们主要编辑的就如下图箭头所示：

main.py是后来加上的，加了两条命令，

1 from scrapy import cmdline
2
3 cmdline.execute("scrapy crawl Meizitu".split())

主要为了方便运行。

Step2：编辑Settings,如下图所示

 1 BOT_NAME = 'CrawlMeiziTu'
 2
 3 SPIDER_MODULES = ['CrawlMeiziTu.spiders']
 4 NEWSPIDER_MODULE = 'CrawlMeiziTu.spiders'
 5 ITEM_PIPELINES = {
 6    'CrawlMeiziTu.pipelines.CrawlmeizituPipeline': 300,
 7 }
 8 IMAGES_STORE = 'D://pic2'
 9 DOWNLOAD_DELAY = 0.3
10
11 USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
12 ROBOTSTXT_OBEY = True

主要设置USER_AGENT,下载路径，下载延迟时间


Step3:编辑Items.Items主要用来存取通过Spider程序抓取的信息。由于我们爬取妹子图，所以要抓取每张图片的名字，图片的连接，标签等等

# -*- coding: utf-8 -*-# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass CrawlmeizituItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()#title为文件夹名字title = scrapy.Field()url = scrapy.Field()tags = scrapy.Field()#图片的连接src = scrapy.Field()#alt为图片名字alt = scrapy.Field()


Step4:编辑PipelinesPipelines主要对items里面获取的信息进行处理。比如说根据title创建文件夹或者图片的名字，根据图片链接下载图片。

# -*- coding: utf-8 -*-
import os
import requests
from CrawlMeiziTu.settings import IMAGES_STOREclass CrawlmeizituPipeline(object):def process_item(self, item, spider):fold_name = "".join(item['title'])header = {'USER-Agent': 'User-Agent:Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36','Cookie': 'b963ef2d97e050aaf90fd5fab8e78633',#需要查看图片的cookie信息，否则下载的图片无法查看
        }images = []# 所有图片放在一个文件夹下dir_path = '{}'.format(IMAGES_STORE)if not os.path.exists(dir_path) and len(item['src']) != 0:os.mkdir(dir_path)if len(item['src']) == 0:with open('..//check.txt', 'a+') as fp:fp.write("".join(item['title']) + ":" + "".join(item['url']))fp.write("\n")for jpg_url, name, num in zip(item['src'], item['alt'],range(0,100)):file_name = name + str(num)file_path = '{}//{}'.format(dir_path, file_name)images.append(file_path)if os.path.exists(file_path) or os.path.exists(file_name):continuewith open('{}//{}.jpg'.format(dir_path, file_name), 'wb') as f:req = requests.get(jpg_url, headers=header)f.write(req.content)return item


Step5:编辑Meizitu的主程序。最重要的主程序：

# -*- coding: utf-8 -*-
import scrapy
from CrawlMeiziTu.items import CrawlmeizituItem
#from CrawlMeiziTu.items import CrawlmeizituItemPage
import time
class MeizituSpider(scrapy.Spider):name = "Meizitu"#allowed_domains = ["meizitu.com/"]
start_urls = []last_url = []with open('..//url.txt', 'r') as fp:crawl_urls = fp.readlines()for start_url in crawl_urls:last_url.append(start_url.strip('\n'))start_urls.append("".join(last_url[-1]))def parse(self, response):selector = scrapy.Selector(response)#item = CrawlmeizituItemPage()
next_pages = selector.xpath('//*[@id="wp_page_numbers"]/ul/li/a/@href').extract()next_pages_text = selector.xpath('//*[@id="wp_page_numbers"]/ul/li/a/text()').extract()all_urls = []if '下一页' in next_pages_text:next_url = "http://www.meizitu.com/a/{}".format(next_pages[-2])with open('..//url.txt', 'a+') as fp:fp.write('\n')fp.write(next_url)fp.write("\n")request = scrapy.http.Request(next_url, callback=self.parse)time.sleep(2)yield requestall_info = selector.xpath('//h3[@class="tit"]/a')#读取每个图片夹的连接for info in all_info:links = info.xpath('//h3[@class="tit"]/a/@href').extract()for link in links:request = scrapy.http.Request(link, callback=self.parse_item)time.sleep(1)yield request# next_link = selector.xpath('//*[@id="wp_page_numbers"]/ul/li/a/@href').extract()# next_link_text = selector.xpath('//*[@id="wp_page_numbers"]/ul/li/a/text()').extract()# if '下一页' in next_link_text:#     nextPage = "http://www.meizitu.com/a/{}".format(next_link[-2])#     item['page_url'] = nextPage#     yield item#抓取每个文件夹的信息def parse_item(self, response):item = CrawlmeizituItem()selector = scrapy.Selector(response)image_title = selector.xpath('//h2/a/text()').extract()image_url = selector.xpath('//h2/a/@href').extract()image_tags = selector.xpath('//div[@class="metaRight"]/p/text()').extract()if selector.xpath('//*[@id="picture"]/p/img/@src').extract():image_src = selector.xpath('//*[@id="picture"]/p/img/@src').extract()else:image_src = selector.xpath('//*[@id="maincontent"]/div/p/img/@src').extract()if selector.xpath('//*[@id="picture"]/p/img/@alt').extract():pic_name = selector.xpath('//*[@id="picture"]/p/img/@alt').extract()else:pic_name = selector.xpath('//*[@id="maincontent"]/div/p/img/@alt').extract()#//*[@id="maincontent"]/div/p/img/@altitem['title'] = image_titleitem['url'] = image_urlitem['tags'] = image_tagsitem['src'] = image_srcitem['alt'] = pic_nameprint(item)time.sleep(1)yield item

转载于:https://www.cnblogs.com/william126/p/6923017.html

Python使用Scrapy爬虫框架全站爬取图片并保存本地(@妹子图@)相关推荐

python scrapy框架抓取的图片路径打不开图片_Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码...
大家可以在Github上clone全部源码. 基本上按照文档的流程走一遍就基本会用了. Step1: 在开始爬取之前,必须创建一个新的Scrapy项目. 进入打算存储代码的目录中,运行下列命令: sc ...
使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图）
使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图) 初学Scrapy,实现爬取网络图片并保存本地功能一.先看最终效果保存在F:\pics文件夹下二.安装scrapy 1.python的安装 ...
【Python】Scrapy爬虫框架小试牛刀：爬取某论坛招聘信息
Scrapy爬虫框架小试牛刀:爬取某论坛招聘信息背景 Scrapy工作原理创建项目创建爬虫确定数据爬取思路编写对象:item.py 制作爬虫:muchongrecruit.py 存储内容:p ...
Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文
大宗师是著名网络小说作家蛇从革的系列作品"宜昌鬼事"之一,在天涯论坛具有超级高的访问量.这个长篇小说于2015年3月17日开篇,并于2016年12月29日大结局,期间每天有7万多读 ...
python的scrapy爬虫可以将爬去的数据放入数据库吗_Python基于Scrapy的爬虫数据采集（写入数据库）...
上一节已经学了如何在spider里面对网页源码进行数据过滤. 这一节将继续学习scrapy的另一个组件-pipeline,用来2次处理数据 (本节中将以储存到mysql数据库为例子) 虽然scrapy ...
Python-爬虫（Scrapy爬虫框架，爬取豆瓣读书和评分）
文章目录 1.Scrapy注意点 2. Scrapy爬取豆瓣读书和评分代码部分数据定义items.py 爬虫部分spiders/book.py 数据存储部分pipelines.py 启动爬虫执行c ...
scrapy爬虫系列之三--爬取图片保存到本地
功能点:如何爬取图片,并保存到本地爬取网站:斗鱼主播完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py im ...
Python 采用Scrapy爬虫框架爬取豆瓣电影top250
scrapy 简介在此,默认已经安装好Scrapy,如果没有安装可以到scrapy 官网下载安装. 注意: 在安装Scrapy之前首先需要安装一下python第三方库:(安装方法并不在本文讲解范围, ...
Scrapy爬虫框架，爬取小说网的所有小说
Scrapy入门教程请看目录 1.思路清理 2.创建爬虫项目 3. 爬虫架构构思 4.爬虫程序具体分析 5.效果展示 6.待优化的地方 1.思路清理我们的目的是把某个小说网的所有小说给拿下,这就涉 ...

Python使用Scrapy爬虫框架全站爬取图片并保存本地(@妹子图@)

Python使用Scrapy爬虫框架全站爬取图片并保存本地(@妹子图@)相关推荐

最新文章

热门文章