爬虫 scrapy框架 爬取360图片
创建项目三步
scrapy startproject image360
cd image360
scrapy genspider image
首先还是先把服从机器人协议改成False
settings.py
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
定义图片路由和名字
items.py
import scrapy
class Image360Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()# 定义图片的URLimage_urls = scrapy.Field()# 定义图片名title = scrapy.Field()pass
开始编辑项目文件
image.py
# -*- coding: utf-8 -*-
import scrapy,json
from ..items import Image360Itemclass ImageSpider(scrapy.Spider):name = 'image'# allowed_domains = ['image.com']start_urls = ['https://image.so.com/zjl?ch=beauty&sn=90&listtype=new&temp=1']def parse(self, response):# 将json格式数据转换成python类型data_dic = json.loads(response.text)# 实例化对象item = Image360Item()# 获取图片URL并存入image_urlsitem['image_urls'] = [i['qhimg_url'] for i in data_dic['list']]# 注意:item中的image_urls一定需要是一个列表# 获取图片名item['title'] = [i['title'] for i in data_dic['list']]yield itempass
配置pipelines文件
pipelines.py
import scrapy
from scrapy.pipelines.images import ImagesPipeline
class Image360Pipeline(ImagesPipeline):# 重写get_media_requests()def get_media_requests(self, item, info):for image_url in item['image_urls']:yield scrapy.Request(url=image_url,meta={'index':item['image_urls'].index(image_url),'item':item})passpass# 重写file_path()def file_path(self, request, response=None, info=None):# 获取itemitem = request.meta['item']# 获取索引index = request.meta['index']# 保存文件return 'full/%s.jpg' % (item['title'][index])passpass
回到settings里,激活管道文件
ITEM_PIPELINES = {'image360.pipelines.Image360Pipeline': 300,
}
# 配置图片存放的路径
IMAGES_STORE = 'images'
爬虫 scrapy框架 爬取360图片相关推荐
- 使用scrapy框架爬取斗鱼图片
使用scrapy框架爬取斗鱼图片 首先我们先认识一下框架 scrapy-Scrapy是Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scr ...
- Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...
- scrapy框架爬取网站图片
使用scrapy 框架爬取彼岸图库 前言: 这两天在网上学习了一下scrapy框架,发现及其好用,把爬虫步骤分的细细的.所以写了一个简单项目回顾一下并分享给大家^ . ^ 源码我已经放到Github了 ...
- Scrapy框架爬取昵图网图片
Scrapy 图片爬虫构建思路为: 1. 分析网站 2. 选择爬取方式和策略 3. 创建爬虫项目-->定义items 4. 编写爬虫文件 5. 调试pipelines与settings 6. 调 ...
- python爬虫scrapy框架爬取网页数据_Scrapy-Python
scrapy Scrapy:Python的爬虫框架 实例Demo 抓取:汽车之家.瓜子.链家 等数据信息 版本+环境库 Python2.7 + Scrapy1.12 初窥Scrapy Scrapy是一 ...
- 爬虫——scrapy框架爬取多个页面电影的二级子页面的详细信息
文章目录 需求: 总结: 代码: movieinfo.py items.py middleware.py pipelines.py 结果: 附加: crawlspider可以改进: 需求: scrap ...
- python爬虫scrapy框架爬取糗妹妹段子首页
声明:本文仅为学习爬虫,请勿商业和恶意攻击网站,本文所有解释权归作者. 本文分别用两种方法把获取的段子信息存储到了本地,分别是txt文件和json文件, txt文件比较简单,生成字典后用命令直接执行即 ...
- python爬虫库scrapy_使用Python爬虫Scrapy框架爬取数据
时隔数月,国庆期间想做个假期旅游的分析展示. 1.通过Python爬取旅游网站上数据,并存储到数据库 2.通过Echart/FineReport/Superset等数据分析工具对数据展示 环境: Wi ...
- 爬虫scrapy框架 爬取一药网
cmd 命令创建项目 scrapy startproject yiyaowang cd yiyaowang scrapy genspider yaowang yaowang.com 先进入settin ...
最新文章
- 如何在O(1)的时间里删除单链表的结点
- log4j.properties
- copyproperties爆红_BeanUtils.copyProperties复制失败探究
- 聊一聊Android的消息机制
- dbEntry.net CK.K的高级应用
- oracle 触发器 和 常用内置程序包
- Spring Boot + Mybatis 实现动态数据源
- html中加入scrip代码,HTML script 标签 | 菜鸟教程
- Flask的状态保持和上下文管理
- logback.xml中MaxHistory日志文件保留天数
- 强连通分量算法(2)
- 设计模式GOF23之单例模式
- phpwind升级php7,7.3版本下载超30万次 PHPWind7 终极版开放下载
- android GPS开发
- angular4之管道
- 算法学习(二十)——GAE
- ActiveMQ实现削峰填谷
- xp系统怎么添加wifi连接服务器,XP系统怎么连接无线路由器
- 我的世界服务器无限血,我的世界生物血量无限指令 | 手游网游页游攻略大全
- 切线空间(Tangent Space) 的计算与应用
热门文章
- 180119 杂项-生物特征识别原理和绕过
- delete 后加 limit
- 技术分享 | 黑盒测试方法论—边界值
- 谷歌的“神秘”小纸盒,居然是个人脸检测相机!
- 常用HTTP抓包工具Fiddler使用的12个小技巧,值得收藏!
- python3:小练习
- Leetcode-标签为Tree 226. Invert Binary Tree
- redisTemplate删除key的方法
- 自动出题机c语言compute,小学数学自动出题工具下载-幼儿园小学数学自动出题机下载v2.0-西西软件下载...
- 【HTML】学习笔记——表单、框架