多线程爬取王者荣耀皮肤壁纸

今天写了个小demo，多线程爬取王者荣耀全皮肤，话不多说，直入主题。

https://pvp.qq.com/web201605/herolist.shtml这个是玩王者荣耀官网上的英雄列表，这个时候一共是100个英雄整。小生这边先是用xpath获取所有<li>标签，再获取里边<a>标签的href属性，可是最后只能收集到93个英雄，不全，于是重新试了一个方法，可以获取全部100个英雄了。

一观察站点，找方法

因为不直接使用xpath获取，所以小生这边观察了一下各个英雄页面的url，很容易就能得到规律 https://pvp.qq.com/web201605/herodetail/505.shtml 只有里边的505这一串数字是不同的，所以下一步就是找到这个id在哪里。于是就去访问文件里找。

如下图，会在访问文件中找到一个英雄列表（herolist.json）的文件，乱码不要紧，编码问题，程序获取的是没问题。访问这个url下载下来，看的清晰。

手动访问这个文件，获得一串json字符串，可以发现url的id就是这串字符串的ename属性。

现在我们就可以构造一个全英雄url列表。接下来的任务是找到皮肤的url地址。
皮肤的位置很明显，在下图位置，通过观察页面代码，发现这个切换是通过js改变style的背景，如下下图。但是不难发现，这个url的规律：两个505是英雄id，后边的那个1是英雄的皮肤编号。

现在我们也已经可以构造皮肤的url了，不过还有一点，我们还要确定每个英雄拥有的皮肤数量，接着查看源码，不难发现，如下图所示。只需要一点点的改变，用split切割，再用re匹配就可以获得皮肤名称的列表。

万事俱备，开始码代码

二码代码啊

先简单介绍一下多线程的使用吧，还是都在代码里，看

from queue import Queue      # 导入队列，用队列代替列表
import threading        # 导入多线程# 1. 生成队列
queue = Queue()# 2. 遍历， 将数据添加到queue队列
queue.put(......)           # .put让队列计数+1# 3. 从queue去除数据，进行处理
queue.get()
...
queue.task_down()       # .task_down配合.get，可以使队列计数-1# 4. 添加thread任务
t_list = []            # 用于存放任务
for i in range(3):      # 通过循环开启三个线程t = threading.Thread(target=function_name)        # 添加多线程任务t_list.append(t)for t in t_list:t.setDaemon(True)      # 设置成守护线程，会随着主线程结束而结束t.start()queue.join()       # 让主线程等待阻塞，等待队列的任务完成之后，再完成

然后这边也没什么好说的，直接看代码，注释都在代码里。

import requests
from lxml import etree
import re
import threading
from queue import Queue
import os
from time import sleep
import jsonclass HeroSpider():def __init__(self):self.start_url = "https://pvp.qq.com/web201605/js/herolist.json"self.url = "https://pvp.qq.com/web201605/herodetail/{}.shtml"self.headers = {"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1"}self.hero_url_queue = Queue()self.skin_queue = Queue()# 获取英雄url列表def get_hero_list(self):url = self.start_urlres = requests.get(url, headers=self.headers).contentres = json.loads(res)for i in res:url = self.url.format(i["ename"])self.hero_url_queue.put(url)# 访问英雄页面，获取信息def get_skin_list(self):while True:# 1. 从queue获取urlurl = self.hero_url_queue.get()# 2. 访问该url, 获取信息response = requests.get(url,headers=self.headers).content.decode('gbk')response = etree.HTML(response)# 3. 将数据放入skin_queue队列item = {}item["hero_name"] = response.xpath("//h2[@class='cover-name']/text()")[0]item["hero_id"] = response.xpath("//span[@class='hidden']/text()")[0]skin_name_list = str(response.xpath("//ul[@class='pic-pf-list pic-pf-list3']/@data-imgname")).split("|")# 格式化皮肤名称item["skin_name_list"] = [re.findall(r'\[?\'?(.*)&.*', skin_name)[0] for skin_name in skin_name_list]# 4. 将item添加到队列self.skin_queue.put(item)# 5. 任务完成，hero_queue队列-1self.hero_url_queue.task_done()#  保存图片的函数def save_skin(self):while True:# 1. 从queue获取数据item = self.skin_queue.get()# 2. 创建英雄文件夹os.mkdir("heros/" + item["hero_name"])# 2. 构造url和文件名等数据for skin_name in item["skin_name_list"]:skin_id = item["skin_name_list"].index(skin_name) + 1skin_url = "http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/%s/%s-bigskin-%d.jpg" % (item["hero_id"], item["hero_id"], skin_id)skin_img = requests.get(skin_url, headers=self.headers)with open("heros/" + item["hero_name"] + "/" + skin_name +'.jpg', "wb") as f:f.write(skin_img.content)# 3. 任务完成，skin_queue队列-1self.skin_queue.task_done()def run(self):os.mkdir("heros")# 一. 构建人物列表t_list = []# 1. 构建各个英雄的链接t_get_hero_list = threading.Thread(target=self.get_hero_list)t_list.append(t_get_hero_list)# 2. 获取英雄皮肤信息for i in range(5):t_get_skin_list = threading.Thread(target=self.get_skin_list)t_list.append(t_get_skin_list)# 3. 遍历skin_queue队列，保存图片for i in range(5):t_save_skin = threading.Thread(target=self.save_skin)t_list.append(t_save_skin)# 二. 遍历任务，启动t.start()for t in t_list:t.setDaemon(True)  # 设置成守护进程，随主进程关闭而关闭； 解决函数中while True跳出问题t.start()sleep(10)  #  让主进程休眠10s，等第一个页面获取，因为在获取之前队列还是空队列，此时不能让程序认为队列是完成状态, 网速不好的可以多睡一会for q in [self.hero_url_queue, self.skin_queue]:q.join()  # 阻塞主线程，等任务队列完成之后，再完成if __name__ == "__main__":hero = HeroSpider()hero.run()