网站观察

在网页翻页操作中可以看到网页是非动态加载的（page为页码），那么通过requests方式爬取要更为快捷。

可以看到每个套图都在分别不同的框中，那么首先就要爬取每个套图的具体链接。

通过检查（f12）可以发现每个套图的链接地址

在每个具体链接中又可以得到具体的套图表情包

同样可以得到每个图片的下载链接

爬取框架

综上分析，可将具体的爬取过程分为：获取每个套图的链接 > 获取每个表情的链接 > 下载，而对于要下载的图片，若此处一个一个下载，则会耗时极长，故此处选择多线程方式进行爬取。

具体代码

import requests
import threading
import time
import os
import re
from urllib import request
from lxml import etree
from queue import Queue# 生产者类用于爬取表情包链接
class Producer(threading.Thread):HEADERS = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}def __init__(self,page_queue,img_queue,*args,**kwargs):super(Producer,self).__init__(*args,**kwargs)self.page_queue = page_queueself.img_queue = img_queuedef run(self):while True:if self.page_queue.empty():print("=="*20)breakurl = self.page_queue.get()self.parse_taotu_links(url)# 套图链接爬取def parse_taotu_links(self,link):resp = requests.get(link,headers=self.HEADERS)text = resp.texthtml = etree.HTML(text)bqb_links = html.xpath('//div[@class="col-sm-9 center-wrap"]/a/@href')for link in bqb_links:self.parse_img_links(link)# 表情包链接爬取def parse_img_links(self,link):resp = requests.get(link,headers=self.HEADERS)text = resp.texthtml = etree.HTML(text)img_titles = html.xpath('//li[@class="list-group-item"]//div[@class="pic-content"]//img/@alt')img_links = html.xpath('//li[@class="list-group-item"]//div[@class="pic-content"]//img/@src')for img_title,img_link in list(zip(img_titles,img_links)):# 去除文件名当中的特殊符号img_title = re.sub(r'[.。*?？!！@]','',img_title)# 为文件名加上后缀，后缀在表情包链接当中，为链接的后缀suffix = os.path.splitext(img_link)[1]# 去除后缀当中的特殊字符串suffix = re.sub(r'!dta','',suffix)img_title = img_title + suffixself.img_queue.put((img_title,img_link))# 消费者类线程用于下载
class Consumer(threading.Thread):def __init__(self,page_queue,img_queue,*args,**kwargs):super(Consumer,self).__init__(*args,**kwargs)self.page_queue = page_queueself.img_queue = img_queue# 下载表情包def run(self):# 计算一下程序运行时间start = time.clock()# 这里先暂停一秒，让生产者部分先爬取链接，不然会出现一开始就结束循环的情况time.sleep(1)while True:if self.page_queue.empty() and self.img_queue.empty():end = time.clock()t = end - startprint("所有表情包下载完成！")print("下载共花费时间%.1f分钟"%(t/60))breakimg_title,img_link = self.img_queue.get()request.urlretrieve(img_link,'C:/Users/123/Desktop/bqb/taotu/'+img_title)print(img_title+"       下载完成！")def main():# 网页队列（这里为了方便只爬取30页内容，可以自己设定）page_queue = Queue(100)# 表情包队列img_queue = Queue(100)for page in range(1,11):url = 'https://www.doutula.com/article/list/?page=%d'%page# 将网址放到page_queue队列中page_queue.put(url)# 定义5个爬取表情包链接的线程for producers in range(5):t = Producer(page_queue,img_queue)t.start()# 定义5个下载表情包的线程for consumers in range(5):t = Consumer(page_queue,img_queue)t.start()main()

爬虫笔记——多线程爬取斗图网表情包（threading）相关推荐

斗图斗不过小伙伴？python多线程爬取斗图网表情包，助你成为斗图帝！
最近python基础课讲到了多线程,老师让交个多线程的实例练习.于是来试试多线程爬虫,正好复习一下mooc上自学的嵩天男神的爬虫知识.想法很美好,过程却很心酸,从早上开始写,每次出现各种奇怪问题,到现 ...
python3爬虫——多线程爬取斗图网表情包
本文用多线程生产者,消费者模式爬取斗图网的表情包,并下载保存到本地,get_page()函数负责获取页面的图片的url链接,downlod_img()函数通过图片url下载保存到本地文件夹中,开启多线 ...
多线程爬取斗图网表情包
import requests import re import queue import threading import timeHeaders = {'User-Agent': 'Mozilla ...
Python多线程爬取斗图啦表情包
斗图啦表情包多线程爬取-撸代码首先快速的导入我们需要的模块,和其他文章不同,我把相同的表情都放在了同一个文件夹下面,所以需要导入os模块 import asyncio import aiohttp ...
爬取斗图网表情包之后斗图会输？不存在的
前言: 本文非常浅显易懂,可以说是零基础也可快速掌握.如有疑问,欢迎留言,笔者会第一时间回复. 一.分析表情包网址 1.进入斗图啦网址,点击**"最新表情"**,再点击第二.第三页 ...
熊猫人表情包python 代码_用Python爬取斗图网表情包
一.介绍用python处理二进制文件的事情做的比较少,虽然之前有写过分析Ajax抓取今日头条街拍美图,但那个爬虫重在分析Ajax,并没有提到文件路径和文件命名,所以就有了这个爬虫二.流程流程一般 ...
Python项目实战:爬取斗图网表情包图片
2019独角兽企业重金招聘Python工程师标准>>> 前言相信大家在和别人聊天的时候都很喜欢斗图吧,斗着斗着斗忘记睡觉了,哈哈,感情得到了升华,下面来介绍一个利用Python在斗 ...
python多线程爬取多个网址_【Python爬虫】多线程爬取斗图网站（皮皮虾，我们上车）...
原标题:[Python爬虫]多线程爬取斗图网站(皮皮虾,我们上车) 斗图我不怕没有斗图库的程序猿是无助,每次在群里斗图都以惨败而告终,为了能让自己在斗图界立于不败之地,特意去网上爬取了斗图包.在这里 ...
手把手教学php表情包,手把手教你爬取斗图啦表情包
爬取表情包闲来无事,突然想到表情包好久没有更新了,正好这几天学了爬虫,利用爬虫来更新一波表情包,哈哈哈. 有一个网站,叫做"斗图啦",网址是:https://www.doutul ...

爬虫笔记——多线程爬取斗图网表情包（threading）

爬虫笔记——多线程爬取斗图网表情包（threading）

网站观察

爬取框架

具体代码

爬虫笔记——多线程爬取斗图网表情包（threading）相关推荐

最新文章

热门文章