python爬取斗鱼图片

创建项目

scrapy startproject douyu

编写items.py

1 import scrapy
2
3 class DouyuItem(scrapy.Item):
4     nickname = scrapy.Field()
5     imagelink = scrapy.Field()
6     imagePath = scrapy.Field()

创建基础类的爬虫

scrapy genspider douyutupian capi.douyucdn.cn

手机抓包得到API接口，返回JSON格式数据

douyutupian.py

import scrapy
from douyu.items import DouyuItem
import json'''
遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！
'''
class DouyumeinvSpider(scrapy.Spider):name = "douyutupian"allowed_domains = ["capi.douyucdn.cn"]offset = 0url = "http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=20&offset="start_urls = [url + str(offset)]def parse(self, response):# 把json格式的数据转换为python格式，data段是列表data = json.loads(response.text)["data"]for each in data:item = DouyuItem()item["nickname"] = each["nickname"]item["imagelink"] = each["vertical_src"]yield itemself.offset += 20yield scrapy.Request(self.url + str(self.offset), callback = self.parse)

管道文件pipelines.py

import scrapy
from scrapy.utils.project import get_project_settings
from scrapy.pipelines.images import ImagesPipeline
import osclass ImagesPipeline(ImagesPipeline):#def process_item(self, item, spider):#    return item# 获取settings文件里设置的变量值IMAGES_STORE = get_project_settings().get("IMAGES_STORE")def get_media_requests(self, item, info):image_url = item["imagelink"]yield scrapy.Request(image_url)def item_completed(self, result, item, info):image_path = [x["path"] for ok, x in result if ok]os.rename(self.IMAGES_STORE + "/" + image_path[0], self.IMAGES_STORE + "/" + item["nickname"] + ".jpg")item["imagePath"] = self.IMAGES_STORE + "/" + item["nickname"]return item

settings.py

BOT_NAME = 'douyu'SPIDER_MODULES = ['douyu.spiders']
NEWSPIDER_MODULE = 'douyu.spiders'DEFAULT_REQUEST_HEADERS = {"User-Agent" : "DYZB/1 CFNetwork/808.2.16 Darwin/16.3.0"
}ITEM_PIPELINES = {'douyu.pipelines.ImagesPipeline': 300,
}IMAGES_STORE = "IMAGES_STORE = "../../Images"

python爬取斗鱼图片相关推荐

利用python爬虫爬取斗鱼图片(简单详细)
关于在一个安静的夜晚,我缓慢的打开了电脑,望着已经睡着的父母,我轻轻的把门关上,看着斗鱼颜值主播的魅力,我不尽感叹,要是每天都可以不需要那么麻烦的去看那该有多好! 于是我想起了最近刚学的爬虫,嘴角露 ...
使用scrapy框架爬取斗鱼图片
使用scrapy框架爬取斗鱼图片首先我们先认识一下框架 scrapy-Scrapy是Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scr ...
使用Python爬取网页图片
使用Python爬取网页图片李晓文 21 天前近一段时间在学习如何使用Python进行网络爬虫,越来越觉得Python在处理爬虫问题是非常便捷的,那么接下来我就陆陆续续的将自己学习的爬虫知识分享给 ...
利用python爬取网页图片
学习python爬取网页图片的时候,可以通过这个工具去批量下载你想要的图片开始正题: 我从尤物网去爬取我喜欢的女神的写真照,我们这里主要用到的就两个模块 re和urllib模块,有的时候可能会用到t ...
python爬取美女图片的练习
python 爬取美女图片的练习主要使用 xpath 定位获取图片的链接本次练习使用到os库 ,lmxl库 , requests库 import requests from lxml impor ...
Python爬取bing图片
我之前写过一篇Python爬取百度图片,有兴趣的朋友可以去读一下,这次写的是爬取Bing的图片. 打开Bing图片,搜索关键词,开始分析页面,可以发现bing和百度一样都是下滑自动加载,百度默认一次加 ...
python爬取搜狗图片
python爬取搜狗图片 cond(`""" 对于动态加载的网站图片的获取,我们需要去分析js内容一定要让网页发生加载后去分析,分析network 里的XHR,可以看到需 ...
python爬取斗鱼当前英雄联盟主播排名
python爬取斗鱼当前英雄联盟主播排名代码 # 目的:爬取斗鱼英雄联盟当前主播的排名 # 找到对应网页 # 分析排名和名称相对的位置# 模拟HTTP请求,获取HTML数据 # 用正则表达式获取对应 ...
PYTHON爬取斗鱼英雄联盟所有在玩adc的主播房间信息
Python爬取斗鱼英雄联盟所有玩adc的主播房间信息并用redis存储数据最近想要用巩固下json数据的提取以及数据的存储,于是选了斗鱼作为研究对象.. 下面就是所有要爬取的adc,当然有个别ad ...

python爬取斗鱼图片

python爬取斗鱼图片相关推荐

最新文章

热门文章