小爬虫爬取小猫咪图片并存入本地文件夹

本人是安徽工业大学电气与信息工程学院研一学生,最近还不能开学真的是很糟心哦,由于自己比较笨吧,起步较晚还要忙着学习机器学习还有计算机视觉,但是总学这个感觉很闷也没啥意思。所以在家无聊,爬取了一些小猫咪图片到本地文件里,正好给我使用图像处理。另外,也很可爱呀!好啦,开始我们的实操吧!

1、需要的一些库
这里需要5个库,当然如果想要简单一些,也可以去掉一些。
gevent包:这是使用多协程必不可少的包,如果你使用的不是多协程,可以不用这个
time包:这是可以用来计时,也用来设置爬取间隔,不然对服务器不友好就不好了。。
request包:这是对网址链接进行处理和响应的,必不可少的。
BeautifuiSoup包:这是对响应的网址进行解析的。
os包:创建文件夹的。

from gevent import monkey
monkey.patch_all()
from gevent.queue import Queue
import requests
from bs4 import BeautifulSoup
import gevent
import time
import os

2、在我们导入需要的库之后,要对网页网址进行分析,看看响应的图片藏在哪里,从而进行爬取。我这里采用的网址是
小猫咪网址
当你打开它时,会发现很多很多可爱的小猫咪,让人都不舍得离开了(哈哈,题外话),好了我们点开网页检查,发现小猫咪的网址链接藏在 img src 中。
我这里采用的是用最小父系中去寻找,而我找到的最小父系是

'div',class_='il_img'

话不多说,这是我爬取的所有代码如下所示,基本上都很简单,一目了然。

def pachong():while not work.empty():url = work.get_nowait()res = requests.get(url,headers = headers)jiexi = BeautifulSoup(res.text,'html.parser')fuxi = jiexi.find_all('div',class_='il_img')for i in fuxi:photo = i.find_all('a')[0].find('img')['src']transform = str(photo)add = 'https:' + transformimage.append(add)

3、接下来是存储图片到本地文件中,先使用os模块创建文件夹,创建好之后因为是图片,以wb模式写入文件夹中。

dir_name = 'catimage'#在当前目录下创建文件夹if not os.path.exists(dir_name):os.mkdir(dir_name)i = 0for img in image:#给它一点点时间,不然可能会把服务器搞崩掉。。time.sleep(0.1)picture_name = img.split('/')[-1] #提取图片url后缀,一定要用!response = requests.get(img,headers = headers)with open(dir_name+'/'+picture_name,'wb') as f:f.write(response.content)

4、除此之外,我还加了五只爬虫来进行异步爬取,这样会快一点。

5、好了,说了这么多,轮到看看我们的最终得到了什么,我去本地文件夹里找到我创建的catimage文件夹。打开,入眼可见(我截图为部分图片),太可爱了吧!

6、整体源码提供如下啦!

#需要导入的库
#我采用多协程方式
from gevent import monkey
monkey.patch_all()
from gevent.queue import Queue
import requests
from bs4 import BeautifulSoup
import gevent
import time
import os#用time.time()方法来记录爬取的时间
starttime = time.time()
work = Queue()
start_url = 'https://www.ivsky.com/tupian/xiaomao_t3023/index_{page}.html'
#头文件还是要加的,不然会被服务器拦截掉,导致爬取不到
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}#对服务器不能太狠,所以只爬取4页就好了。。。
for x in range(1,5):real_url = start_url.format(page = x)work.put_nowait(real_url)image = []#主要爬虫的操作都在这里
def pachong():while not work.empty():url = work.get_nowait()res = requests.get(url,headers = headers)jiexi = BeautifulSoup(res.text,'html.parser')fuxi = jiexi.find_all('div',class_='il_img')for i in fuxi:photo = i.find_all('a')[0].find('img')['src']transform = str(photo)add = 'https:' + transformimage.append(add)dir_name = 'catimage'#在当前目录下创建文件夹if not os.path.exists(dir_name):os.mkdir(dir_name)i = 0for img in image:#给它一点点时间,不然可能会把服务器搞崩掉。。time.sleep(0.1)picture_name = img.split('/')[-1] #提取图片url后缀,一定要用!response = requests.get(img,headers = headers)with open(dir_name+'/'+picture_name,'wb') as f:f.write(response.content)i = i+1print('正在爬取第'+str(i)+'张图片')task_list = []
for z in range(5):task = gevent.spawn(pachong)task_list.append(task)
gevent.joinall(task_list)
endtime = time.time()
print('爬取时长:',endtime-starttime)

好啦。不了解的可以评论给我哦!

小爬虫爬取小猫咪图片并存入本地文件夹相关推荐

  1. python爬取明星百度图片并存入本地文件夹

    python爬取明星百度图片并存入本地文件夹 想要一个明星图片的时候,发现图片量过大,一张张保存太累,不太现实 这时候就可以用到爬虫,批量爬取图片 现在又出现一个问题,当发现一个明星爬完后,再爬取下一 ...

  2. node:爬虫爬取网页图片 1

    代码地址如下: http://www.demodashi.com/demo/13845.html 前言 周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图 ...

  3. 上手快!!福利局!新手如何使用python爬虫爬取网页图片(使用正则进行数据解析)当然这个新手是我自己

    作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...

  4. python爬虫,爬取下载图片

    python爬虫,爬取下载图片 分别引入以下三个包 from urllib.request import urlopen from bs4 import BeautifulSoup import re ...

  5. python爬虫多url_Python爬虫抓取多个URL写入本地文件

    Python爬虫抓取多个URL写入本地文件!1. Pycharm中运行Scrapy windows环境下cmd中通过scrapy startproject 项目名,创建scrapy项目 修改Run-中 ...

  6. Java抓取起点小说输出到本地文件夹和数据库

    Java抓取起点小说输出到本地文件夹和数据库 目录 项目结构 所需插件 项目代码 输出结果 目录 项目结构 第一次写网络爬虫,参考了别人的,也自己理解了用法 所需插件 因为使用了mevan,直接上po ...

  7. Python网络爬虫——爬取网站图片小工具

    最近初学python爬虫,就写了一个爬取网站图片的小工具,界面如下: 用到的包主要是爬虫常用的urllib,urllib2和图形界面用的Tkinter,完整代码如下: # -*- coding:utf ...

  8. scrapy-redis分布式爬虫爬取美女图片

    背景: 爬取目标:(你懂得) url: h t t p s : / / w w w . j p x g y w . c o m 为什么要用scrapy-redis: 为什么用scrapy-redis, ...

  9. 利用python爬虫爬取斗鱼图片(简单详细)

    关于 在一个安静的夜晚,我缓慢的打开了电脑,望着已经睡着的父母,我轻轻的把门关上,看着斗鱼颜值主播的魅力,我不尽感叹,要是每天都可以不需要那么麻烦的去看那该有多好! 于是我想起了最近刚学的爬虫,嘴角露 ...

最新文章

  1. solr6 java_Solr6 快速入门教程
  2. 被踢出sci_心痛啊!全世界历史最长的期刊,被踢出SCI了!
  3. linux64位ioremap函数,linux操作系统中的ioremap函数详解
  4. 字节跳动AI Lab招聘算法工程师,含全职和实习
  5. nodejs实践录:我的nodejs编码风格
  6. python如何监听cmd_如何从Python脚本捕获Python解释器和/或CMD.EXE的输出?
  7. 1051: [HAOI2006]受欢迎的牛 (tarjan强连通分量+缩点)
  8. libevent参考手册 系列文章
  9. 高清人脸数据集—FFHQ
  10. Java,Android 汉明窗 Hanmming
  11. python获取浏览器network_如何使用python selenium获取浏览器网络日志
  12. Ubuntu 11.10ibus万能五笔
  13. 数字孪生的主要应用领域
  14. JavaScript自写逻辑思维导图(非常详细)
  15. 物质模拟器3.0版,变得彩色
  16. 响应式微服务_低风险整体式微服务演进第二部分
  17. 数据分析行业薪资的秘密,你想知道的都在这里(1)
  18. QUANT[10]量化交易——因子暴露度,因子收益与模型
  19. 为什么苹果手机自带的邮件服务器,如何使用iPhone自带的邮件客户端管理企业邮箱?...
  20. 第三章 正确认识MVC

热门文章

  1. Web后端语言模拟http请求 带用户名和密码 实例代码大全
  2. CTF-WEB——HTTP Headers类型
  3. 【Python】报错:ValueError: attempted relative import beyond top-level package问题解决
  4. Pycharm 报错Out of Memory 然后一直闪退(已解决)
  5. MATLAB/Simulink封装子模块图片显示和参数输出设置问题
  6. 《对冲基金建模与分析基于MATLAB》简介及PDF下载
  7. 常微分方程(Ordinary differential equation)
  8. 冲量在线创始人刘尧:以信创软硬件结合场景为突破口“占山为王”
  9. Hadoop安装教4程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.0
  10. 用计算机弹有点甜乐谱,《汪苏泷 - 有点甜,钢琴谱》汪苏泷(五线谱 钢琴曲 指法)-弹吧|蛐蛐钢琴网...