scrapy爬取斗鱼图片并且重命名后保存
斗鱼的api为:
http://capi.douyucdn.cn/api/v1/live?limit=20&offset=0
建立一个scrapy爬虫
douyu.py
import jsonimport scrapy
from Douyu.items import DouyuItemclass DouyuSpider(scrapy.Spider):name = 'douyu'allowed_domains = ['douyucdn.cn']baseURL = 'http://capi.douyucdn.cn/api/v1/live?limit=20&offset='offset = 0start_urls = [baseURL + str(offset)]def parse(self, response):data_list = json.loads(response.body)['data']if len(data_list) == 0:returnfor data in data_list:item = DouyuItem()item['imagelink'] = data['vertical_src']item['nickname'] = data['nickname']yield itemself.offset += 20url = self.baseURL + str(self.offset)yield scrapy.Request(url, callback=self.parse)
piplines
import scrapy
import os
from scrapy.pipelines.images import ImagesPipeline
from Douyu.settings import IMAGES_STORE as images_storeclass DouyuPipeline(ImagesPipeline):def get_media_requests(self, item, info):image_link = item['imagelink']yield scrapy.Request(image_link)def item_completed(self, results, item, info):image_path = [x['path'] for ok, x in results if ok]print('图片路径是:', images_store + image_path[0])os.rename(images_store + '/' + image_path[0], images_store + '/' + item["nickname"] + '.jpg')return item
items
class DouyuItem(scrapy.Item):# define the fields for your item here like:imagelink = scrapy.Field()nickname = scrapy.Field()
setting
USER_AGENT = 'Mozilla/5.0 (Linux; U; Android 4.4.2; zh-cn; PE-TL20 Build/HuaweiPE-TL20) ' \'AppleWebKit/537.36 (KHTML, like Gecko)Version/4.0 MQQBrowser/5.3 Mobile Safari/537.36'
robots需要修改成False
这样爬到的图片就自动重命名后并且下载好了
git地址
scrapy爬取斗鱼图片并且重命名后保存相关推荐
- 使用Scrapy爬取斗鱼图片
1.具体文件结构 2.代码: items # -*- coding: utf-8 -*-# Define here the models for your scraped items # # See ...
- python+scrapy爬取斗鱼图片
创建scrapy的项目请参考:https://blog.csdn.net/qq_35723619/article/details/83614670 items的实现: DouyumeinvSpider ...
- Python爬虫:scrapy爬取斗鱼直播图片
通过斗鱼给出的api,获取json文件,解析出图片地址,可以获取直播间的图片 斗鱼api接口: http://open.douyucdn.cn/api/RoomApi/live/{num} 比如: h ...
- 使用scrapy框架爬取斗鱼图片
使用scrapy框架爬取斗鱼图片 首先我们先认识一下框架 scrapy-Scrapy是Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scr ...
- Scrapy爬取ammmi图片
Scrapy爬取ammmi图片 相关配置: python version:3.7 IDE:Pycharm environment:windows10 Framework:Scrapy 相关链接: We ...
- 使用scrapy爬取斗鱼直播间信息
目录 1. 谷歌抓包工具的使用 1.1 打开Chrome开发者工具的方法 1.2 开发者工具的结构 1.3 network模块 2. 使用谷歌抓包工具抓取斗鱼数据 3. 使用scrapy爬取斗鱼直播间 ...
- Scrapy爬取美女图片续集 (原创)
上一篇咱们讲解了Scrapy的工作机制和如何使用Scrapy爬取美女图片,而今天接着讲解Scrapy爬取美女图片,不过采取了不同的方式和代码实现,对Scrapy的功能进行更深入的运用. 在学习Scra ...
- 利用python爬虫爬取斗鱼图片(简单详细)
关于 在一个安静的夜晚,我缓慢的打开了电脑,望着已经睡着的父母,我轻轻的把门关上,看着斗鱼颜值主播的魅力,我不尽感叹,要是每天都可以不需要那么麻烦的去看那该有多好! 于是我想起了最近刚学的爬虫,嘴角露 ...
- Scrapy爬取美女图片续集
上一篇咱们讲解了Scrapy的工作机制和如何使用Scrapy爬取美女图片,而今天接着讲解Scrapy爬取美女图片,不过采取了不同的方式和代码实现,对Scrapy的功能进行更深入的运用. 在学习Scra ...
最新文章
- 替换某个目录下的文本文件内容字符串
- 如何用catia画半圆_简笔画用半圆画卡通动物
- unique函数_走进C++11(三十四)unique_ptr
- IntelliJ IDEA 问题总结之二 —— 快捷键、主题样式、导出jar、sqlite
- 黑科技轮胎:有能发电的,脑洞简直不要太大...
- centos8安装MySQL依赖_centos8安装mysql8
- 用until编写一段shell程序,计算1~10的平方和
- [nRF51822] 13、浅谈nRF51822和NRF24LE1/NRF24LU1/NRF24L01经典2.4G模块无线通信配置与流程...
- python下载pip包_python之路-离线pip下载Python包
- java实现小说采集_Java实现一个小说采集程序的简单实例
- oracle数据库怎么查实例名,查询oracle数据库实例的名字
- 8086+8255A写数码管Proteus仿真及8086Proteus仿真问题
- 取消磁盘介质写入保护
- Vue_路由_query参数_params参数_命名路由_props配置_编程式路由导航_缓存路由组件_新的生命周期钩子_全局、独享、组件内路由守卫_路由的两种工作模式
- python加法_python加法运算
- linux 转型 安卓,国内知名Linux网站Linux公社和红联都转型为Android安卓网站
- C# LeetCode刷题 - Leetcode 306. 累加数 - 题解
- 线上连锁线下整合 连锁电商建设方案
- 【2018,中国智能+】新智元10万+热文排行,AI爆发没有看客
- 一文读懂IBIS模型