小爬虫爬取小猫咪图片并存入本地文件夹

小爬虫爬取小猫咪图片并存入本地文件夹

本人是安徽工业大学电气与信息工程学院研一学生，最近还不能开学真的是很糟心哦，由于自己比较笨吧，起步较晚还要忙着学习机器学习还有计算机视觉，但是总学这个感觉很闷也没啥意思。所以在家无聊，爬取了一些小猫咪图片到本地文件里，正好给我使用图像处理。另外，也很可爱呀！好啦，开始我们的实操吧！

1、需要的一些库
这里需要5个库，当然如果想要简单一些，也可以去掉一些。
gevent包：这是使用多协程必不可少的包，如果你使用的不是多协程，可以不用这个
time包：这是可以用来计时，也用来设置爬取间隔，不然对服务器不友好就不好了。。
request包：这是对网址链接进行处理和响应的，必不可少的。
BeautifuiSoup包：这是对响应的网址进行解析的。
os包：创建文件夹的。

from gevent import monkey
monkey.patch_all()
from gevent.queue import Queue
import requests
from bs4 import BeautifulSoup
import gevent
import time
import os

2、在我们导入需要的库之后，要对网页网址进行分析，看看响应的图片藏在哪里，从而进行爬取。我这里采用的网址是
小猫咪网址
当你打开它时，会发现很多很多可爱的小猫咪，让人都不舍得离开了（哈哈，题外话），好了我们点开网页检查，发现小猫咪的网址链接藏在 img src 中。
我这里采用的是用最小父系中去寻找，而我找到的最小父系是

'div',class_='il_img'

话不多说，这是我爬取的所有代码如下所示，基本上都很简单，一目了然。

def pachong():while not work.empty():url = work.get_nowait()res = requests.get(url,headers = headers)jiexi = BeautifulSoup(res.text,'html.parser')fuxi = jiexi.find_all('div',class_='il_img')for i in fuxi:photo = i.find_all('a')[0].find('img')['src']transform = str(photo)add = 'https:' + transformimage.append(add)

3、接下来是存储图片到本地文件中，先使用os模块创建文件夹，创建好之后因为是图片，以wb模式写入文件夹中。

dir_name = 'catimage'#在当前目录下创建文件夹if not os.path.exists(dir_name):os.mkdir(dir_name)i = 0for img in image:#给它一点点时间，不然可能会把服务器搞崩掉。。time.sleep(0.1)picture_name = img.split('/')[-1] #提取图片url后缀，一定要用！response = requests.get(img,headers = headers)with open(dir_name+'/'+picture_name,'wb') as f:f.write(response.content)

4、除此之外，我还加了五只爬虫来进行异步爬取，这样会快一点。

5、好了，说了这么多，轮到看看我们的最终得到了什么，我去本地文件夹里找到我创建的catimage文件夹。打开，入眼可见（我截图为部分图片），太可爱了吧！

6、整体源码提供如下啦！

#需要导入的库
#我采用多协程方式
from gevent import monkey
monkey.patch_all()
from gevent.queue import Queue
import requests
from bs4 import BeautifulSoup
import gevent
import time
import os#用time.time()方法来记录爬取的时间
starttime = time.time()
work = Queue()
start_url = 'https://www.ivsky.com/tupian/xiaomao_t3023/index_{page}.html'
#头文件还是要加的，不然会被服务器拦截掉，导致爬取不到
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}#对服务器不能太狠，所以只爬取4页就好了。。。
for x in range(1,5):real_url = start_url.format(page = x)work.put_nowait(real_url)image = []#主要爬虫的操作都在这里
def pachong():while not work.empty():url = work.get_nowait()res = requests.get(url,headers = headers)jiexi = BeautifulSoup(res.text,'html.parser')fuxi = jiexi.find_all('div',class_='il_img')for i in fuxi:photo = i.find_all('a')[0].find('img')['src']transform = str(photo)add = 'https:' + transformimage.append(add)dir_name = 'catimage'#在当前目录下创建文件夹if not os.path.exists(dir_name):os.mkdir(dir_name)i = 0for img in image:#给它一点点时间，不然可能会把服务器搞崩掉。。time.sleep(0.1)picture_name = img.split('/')[-1] #提取图片url后缀，一定要用！response = requests.get(img,headers = headers)with open(dir_name+'/'+picture_name,'wb') as f:f.write(response.content)i = i+1print('正在爬取第'+str(i)+'张图片')task_list = []
for z in range(5):task = gevent.spawn(pachong)task_list.append(task)
gevent.joinall(task_list)
endtime = time.time()
print('爬取时长：',endtime-starttime)

好啦。不了解的可以评论给我哦！

小爬虫爬取小猫咪图片并存入本地文件夹相关推荐

python爬取明星百度图片并存入本地文件夹
python爬取明星百度图片并存入本地文件夹想要一个明星图片的时候,发现图片量过大,一张张保存太累,不太现实这时候就可以用到爬虫,批量爬取图片现在又出现一个问题,当发现一个明星爬完后,再爬取下一 ...
node：爬虫爬取网页图片 1
代码地址如下: http://www.demodashi.com/demo/13845.html 前言周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图 ...
上手快！！福利局！新手如何使用python爬虫爬取网页图片（使用正则进行数据解析）当然这个新手是我自己
作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...
python爬虫,爬取下载图片
python爬虫,爬取下载图片分别引入以下三个包 from urllib.request import urlopen from bs4 import BeautifulSoup import re ...
python爬虫多url_Python爬虫抓取多个URL写入本地文件
Python爬虫抓取多个URL写入本地文件!1. Pycharm中运行Scrapy windows环境下cmd中通过scrapy startproject 项目名,创建scrapy项目修改Run-中 ...
Java抓取起点小说输出到本地文件夹和数据库
Java抓取起点小说输出到本地文件夹和数据库目录项目结构所需插件项目代码输出结果目录项目结构第一次写网络爬虫,参考了别人的,也自己理解了用法所需插件因为使用了mevan,直接上po ...
Python网络爬虫——爬取网站图片小工具
最近初学python爬虫,就写了一个爬取网站图片的小工具,界面如下: 用到的包主要是爬虫常用的urllib,urllib2和图形界面用的Tkinter,完整代码如下: # -*- coding:utf ...
scrapy-redis分布式爬虫爬取美女图片
背景: 爬取目标:(你懂得) url: h t t p s : / / w w w . j p x g y w . c o m 为什么要用scrapy-redis: 为什么用scrapy-redis, ...
利用python爬虫爬取斗鱼图片(简单详细)
关于在一个安静的夜晚,我缓慢的打开了电脑,望着已经睡着的父母,我轻轻的把门关上,看着斗鱼颜值主播的魅力,我不尽感叹,要是每天都可以不需要那么麻烦的去看那该有多好! 于是我想起了最近刚学的爬虫,嘴角露 ...

小爬虫爬取小猫咪图片并存入本地文件夹

小爬虫爬取小猫咪图片并存入本地文件夹相关推荐

最新文章

热门文章