一个多线程素材下载爬虫,实现多线程素材下载,包含素材包rar,素材图及素材描述,应用了经典的生产者与消费者模式,不过数据没有下载全,容易出现卡死的问题,期待后期能够解决相关问题,可以算是一个半成品,供大家参考和学习,有更好的多线程解决方案也可以交流!

几个关键点:

1.素材图片的获取

素材图存在不少情况,无图,单图,多图等都有可能存在

xpath获取图片

imgs = req.xpath('//div[@class="contentinfo"]/table//@src')

条件判断,看是否存在图片

if imgs:

遍历获取图片

for img in imgs:

图片后缀的获取

suffix = os.path.splitext(img)[1]

2.是否能够下载,素材是否有下载权限

如果能够下载,获取到下载相关数据,下载路径链接以及素材包名,不能下载则返回为空

if int(req.xpath('//div[@class="download"]/dl[@class="downlink"]/dd[1]/b/text()')[0]) == 0:

down_url = req.xpath('//div[@class="download"]/dl[@class="downlink"]/dt/li/a/@href')[0]

down_name = f'{h2}/{h2}.rar'

down_data=down_url, down_name

print(down_data)

else:

down_data=[]

3.队列的使用,老生常谈

队列只能传递一个参数!!!

data=text_data,img_data,down_data

self.down_queue.put(data)

4.一些能程序能够运行的设置

a.sleep操作延迟

time.sleep(1)

b.队列容器的设定

一般而言,往大了设置,哪个队列数据更多,则设置更多

page_queue = Queue(1000)

down_queue = Queue(1500)

运行效果:

采集效果:

素材效果:

附源码:

# -*- coding: UTF-8 -*-

# 20200516 by 微信公众号:二爷记

import requests, os,time

from lxml import etree

from fake_useragent import UserAgent

import threading

from queue import Queue

# 生产者模式

class Procuder(threading.Thread):

def __init__(self, page_queue, down_queue, *args, **kwargs):

super(Procuder, self).__init__(*args, **kwargs)

self.page_queue = page_queue

self.down_queue = down_queue

self.ua = UserAgent()

self.headers = {"User-Agent": self.ua.random}

def run(self):

while True:

if self.page_queue.empty():

break

url = self.page_queue.get()

self.parse(url)

def parse(self, url):

print(f'>>> 正在抓取列表页{url}数据...')

response = requests.get(url, headers=self.headers, timeout=6).content.decode("gbk")

time.sleep(1)

req = etree.HTML(response)

urllist = req.xpath('//dl[@class="imglist"]/dt/ul[@class="listimg"]/li/span[@class="listpic"]/a/@href')

print(len(urllist))

print(urllist)

for href in urllist:

try:

self.parse_page(href)

except Exception as e:

print(f'获取详情数据失败,错误代码:{e}')

def parse_page(self, url):

print(f'>>> 正在抓取详情页{url}数据...')

response = requests.get(url, headers=self.headers, timeout=6).content.decode("gbk")

time.sleep(1)

req = etree.HTML(response)

h2 = req.xpath('//div[@class="arcinfo"]/h2/text()')[0]

print(h2)

article = req.xpath('//div[@class="contentinfo"]/table//text()')

article = ''.join(article)

article = article.strip()

print(article)

texts = f'{h2}\n{article}'

text_data=h2,texts

imgs = req.xpath('//div[@class="contentinfo"]/table//@src')

if imgs:

i = 1

for img in imgs:

img_url = f'http://www.uimaker.com{img}'

suffix = os.path.splitext(img)[1]

img_name = f'{i}{suffix}'

img_data=img_url, img_name

print(img_data)

i = i + 1

if int(req.xpath('//div[@class="download"]/dl[@class="downlink"]/dd[1]/b/text()')[0]) == 0:

down_url = req.xpath('//div[@class="download"]/dl[@class="downlink"]/dt/li/a/@href')[0]

down_name = f'{h2}/{h2}.rar'

down_data=down_url, down_name

print(down_data)

else:

down_data=[]

data=text_data,img_data,down_data

self.down_queue.put(data)

# 消费者模式

class Consumer(threading.Thread):

def __init__(self, page_queue, down_queue, *args, **kwargs):

super(Consumer, self).__init__(*args, **kwargs)

self.page_queue = page_queue

self.down_queue = down_queue

self.ua = UserAgent()

self.headers = {"User-Agent": self.ua.random}

def run(self):

while True:

if self.page_queue.empty() and self.down_queue.empty():

break

text_data,img_data,down_data=self.down_queue.get()

h2,texts=text_data

os.makedirs(f'{h2}/', exist_ok=True) #创建目录

self.get_text(h2, texts)

img_url,img_name=img_data

self.get_downimg(h2, img_url, img_name)

if down_data !=[]:

down_url, down_name = down_data

self.down(down_url, down_name)

# 保存文本内容

def get_text(self, h2, texts):

print("开始保存文本内容...")

with open(f'{h2}/{h2}.txt', 'w', encoding="utf-8") as f:

f.write(texts)

print(">>>保存文本内容完成!")

# 下载图片

def get_downimg(self, h2, img_url, img_name):

print("开始下载图片...")

r = requests.get(img_url, headers=self.headers, timeout=6)

time.sleep(1)

with open(f'{h2}/{img_name}', 'wb') as f:

f.write(r.content)

print(">>>下载图片完成!")

# 下载素材

def down(self, down_url, down_name):

print("开始下载素材...")

r = requests.get(down_url, headers=self.headers, timeout=6)

time.sleep(1)

with open(down_name, 'wb') as f:

f.write(r.content)

print(">>>下载素材完成!")

def main():

page_queue = Queue(1000)

down_queue = Queue(1500)

for i in range(1, 71):

url = f"http://www.uimaker.com/uimakerdown/list_36_{i}.html"

print(f'>>> 正在爬取 第{i + 1}页 列表页,链接:{url}...')

page_queue.put(url)

for x in range(3):

t = Procuder(page_queue, down_queue)

t.start()

for x in range(6):

t = Consumer(page_queue, down_queue)

t.start()

if __name__ == '__main__':

main()

python下载vip素材_Python素材下载爬虫,多线程rar下载爬虫相关推荐

  1. python安装默认路径_Python pip install如何修改默认下载路径

    Python pip install如何修改默认下载路径 pip动不动就下载数百M的文件.这些文件默认在C:盘,那么为了节省空间需要修改这些路径: 打开cmd命令窗口.输入: python -m si ...

  2. python虚拟环境安装包_Python虚拟环境的创建和包下载过程分析

    为什么使用虚拟环境 因为直接在真实环境进行安装python的包会造成环境之间的污染,因此需要创建虚拟环境,原则上每一个项目都需要有一个独属于自己的虚拟环境 Python项目的每次运行都需要启动环境,如 ...

  3. python教程云盘下载手机版_python教程app百度云版下载-python教程百度网盘免费版下载v3.0-速游网...

    python教程app中视频免费的,可以随意的来这里看不同的视频,每一个视频课程都讲解的比较的透彻,而且很多的课程都是系统性的教学,以此来帮助那些零基础的学员,学到真正的精髓. python教程介绍 ...

  4. python爬取美女_Python爬取高颜值美女(爬虫+人脸检测+颜值检测)附学习教程

    1 数据源 知乎话题『美女』下所有问题中回答所出现的图片 2 抓取工具 Python 3,并使用第三方库 Requests.lxml.AipFace,代码共 100 + 行 3 必要环境Mac / L ...

  5. python 汽车行业数据库_python 实现汽车之家车型数据爬虫

    爬虫保存数据库的样子: 详细数据在json_text字段里面 安装使用方法:git clone https://github.com/shancang/spider.git pip install - ...

  6. python多线程爬虫界面_Python实现贴吧多线程网盘爬虫

    \n 百度贴吧网盘多线程爬虫 \n 作者: {3} 贴吧名称: {1}吧 爬取深度: {2} 已爬取目录页数: {5} \ 已爬取主题帖数: {6} 已爬取帖子页数: {7} 已爬取网盘页数: {8} ...

  7. python主线程执行_python 并发执行之多线程

    正常情况下,我们在启动一个程序的时候.这个程序会先启动一个进程,启动之后这个进程会拉起来一个线程.这个线程再去处理事务.也就是说真正干活的是线程,进程这玩意只负责向系统要内存,要资源但是进程自己是不干 ...

  8. python 加速循环的执行_python循环怎么用多线程去运行

    展开全部 背景:Python脚本:读取文件中每行,放入列表中62616964757a686964616fe78988e69d8331333363396465:循环读取列表中的每个元素,并做处理操作. ...

  9. python高并发架构_Python高并发和多线程有什么关系

    "高并发和多线程"总是被一起提起,给人感觉两者好像相等,实则 高并发 ≠ 多线程 多线程是完成任务的一种方法,高并发是系统运行的一种状态,通过多线程有助于系统承受高并发状态的实现. ...

最新文章

  1. mysql和windows连接不上_问题-jdbc连接不上mysql,windows下开启两个mysql服务
  2. 一人之力,刷爆三路榜单!信息抽取竞赛夺冠经验分享
  3. 改写URL的查询字符串QUERY_STRING(转)
  4. c++派生类和基类的构造函数和析构函数
  5. 【网络安全】一个堆题inndy_notepad的练习笔记
  6. JAVA中的设计模式三(策略模式)
  7. CSS 小结笔记之清除浮动
  8. ActivityGroup简介
  9. 网页上使用按键代替鼠标点击按钮
  10. Visual Studio安装指南
  11. 公司 | 四年狂奔,少儿编程准独角兽小码王的盈利逻辑是什么?
  12. 政务终端安全管理的三个视角
  13. 2022年电工(初级)考试试题及答案
  14. 在delphi中制作二维码
  15. 计算机必须设置默认打印机,电脑系统怎么默认打印机 默认打印机的设置教程...
  16. react-native-webrtc之采坑之旅
  17. 如何有效预防ddos攻击
  18. 用javascript写一个简单的登录表单,包含用户名、密码和手机号码。提交数据时验证用户名、密码和手机号输入格式。
  19. 2020面试准备之Java集合
  20. FTP服务器有时候连接超时的问题

热门文章

  1. 新型工业路由器,为进入智能工业时代加快步伐
  2. 运算电路的频率响应与冲激响应
  3. 中文输入法无论如何都要占用Ctrl+Space快捷键终极解决!
  4. image标签不显示照片img标签能显示
  5. 日语学习之——五十音图
  6. photoshop入门笔记1:PS的快捷键
  7. 内网 centos7 离线安装rpm包的三种方法
  8. Linux工具篇 | Ubuntu安装string命令
  9. 一个机械研究生在计算机与机械之间的徘徊与思考-(下)之填坑
  10. 【LeetCode】两道贪心算法题目-455分发饼干,860柠檬水找零