Python应用开发——爬取网页图片

目录

  • Python应用开发——爬取网页图片
    • 前言
    • 1 爬取原理讲解
      • 1.1 查看网页源代码
      • 1.2 分析网页源码并制定对应的爬取方案
      • 1.3 完善爬取流程和细节
    • 2 实战演练
      • 2.1 PyCharm下载安装
      • 2.2 安装相应依赖包(类库)
      • 2.3 编写代码
      • 2.4 补充细节和优化
      • 2.5 运行测试
    • 结束语

前言

当我们需要从网页上面下载很多图片的时候,一个一个手动保存实在是太累人了。那么有没有批量下载的办法呢?
答案是有的,Python爬虫就可以完美的做到这一点,而且作为一个Python的初学者,我可以很负责任的告诉你,这门语言入门挺简单的,特别是对于那些有其他编程语言经验的人。

1 爬取原理讲解

提示:没耐心看原理的同学可以直接跳到第2步实战。
网页上的图片其实都是存到一个服务器上面的,每张图片都会有一个对应的下载网址。
当我们在浏览器上打开一个包含很多图片的网址时,这个网址其实不是这些图片实际的地址,而是把所有图片的真实地址都包含在这个网址上面了。所以当我们在图片上面右键点击保存图片,其实是通过访问这张图片的下载网址来下载图片的。那么同样的,我们用Python爬取图片也是基于这个操作。
总而言之,爬取网页图片的根本方法就是在这个网页上找到图片的原图地址,然后下载保存。

实际操作的大概流程如下:

  1. 访问一个包含图片的网址。
  2. 分析这个网页的HTML源码,找到目标图片的下载地址。
  3. 通过图片地址下载保存到电脑上。
  4. 通过这个网址得到下一页或者下一个套图的网址。
  5. 继续重复上面4个操作。

1.1 查看网页源代码

我们在浏览器上面随便打开一个有图片的网页,按F12就会弹出网页源代码。左边是网页的内容,右边则是HTML代码。
比如我打开一个网页(域名:Xgyw.Top,我这里只是举个例子,这个网站的网址是定期变的,过一段时间可能就打不开了)。

1.2 分析网页源码并制定对应的爬取方案

1) 找到目标图片的相关信息
刚打开html源码的时候,很多内容是折叠起来的,我们可以展开,然后在这些源码里面找到我们需要下载的图片相关的信息。
网页里面的内容其实是一个个模块拼起来的,当鼠标放在某一行代码上面,这段源码对应的网页内容会出现一个蓝色的框框,通过这个提示我们可以很快的找到目标图片对应的那段代码。

2) 从图片信息中提取目标图片的下载地址
找到图片的信息之后就需要根据实际情况分析了,有些网页是直接把原图的完整网址放在这里了,这种就比较简单,我们直接把网址提取出来,然后访问这个网站下载图片即可。
但是有些网页是不会这么容易就让你得到这个网址的,比如我上面这个网站,一个网页有3张图片,但是都没有完整的提供图片地址,不过这个标签里面有一个src的信息,这里面的内容明显就跟图片的网址有关联。
我们这时可以在网页的图片上右键,在新标签页中打开图片,然后查看一下原图的网址。通过对比,我发现这里src的信息正是原图地址后面的一部分,而前面那部分则是一个固定的内容。也就是说这里他把一个完整的地址拆成了两部分,网页源代码里面只有后半部分的信息,很鸡贼。
但是找到规律了之后就好办了,我们只需要在Python的代码里面把这两段地址拼接起来就能得到一个完整的地址了。
提示:如果你没办法从这个网页中得到目标图片的地址,那就没办法继续往下走。
比如这个网页对图片做了加密,需要登录或者VIP权限才能查看到图片的信息,而你又没有的时候,就没办法通过这种方式爬取到目标图片了。

1.3 完善爬取流程和细节

当我们能够解决原图地址的问题,那么爬取就不是什么难事了,我们下一步需要做的是完善整个爬取的流程,以便于批量下载。
1) 根据网页排版确定哪些是目标图片
不同的网页排版可能会不同,比如有些网站一个网页里面只放3张图片,有的则放5张或者更多,而且除了目标图片边上可能也会有一些小的预览图,下一页等等。
我们需要在这些信息中准确的找到目标图片,这个就需要根据实际爬取的网页来编写爬取的代码了。方法是有很多的,要灵活使用,只要能达到目的就行,没有规定说一定要用哪种方法。

2) 爬取完一个网页之后自动查找下一个目标
图片比较多的时候,不可能把所有图片都放在一个网页上,所以很多时候需要跳转到下一页,这个时候我们就需要在HTML源码上面找到下一页的入口地址,或者通过观察每一页的网址并从中找到排列规律,然后跳转到下一个网页继续爬。
具体怎么找要看这个网页的源码是怎样的,原理跟查找原图地址是一样的,这里就不在过多赘述了。

3) 爬取目标图片的命名以及保存路径
我们下载完一张图片之后肯定是需要命名以及保存的,命名以及路径如果设置的不合理,到时候下载完就不好查找了,特别是一次性批量下载很多套图的时候,如果都堆到一个文件夹下面或者随机命名,到时候想找一张图片就跟大海捞针一样。
因此,我们需要提前想好文件的结构和图片的命名方式。
比如:很多网页上面本身就对套图进行了命名,那么我们就可以按照网页上面的命名创建文件夹,然后再把相应的图片放到这个文件夹下,按序号排列图片。
当然了,我这里只是举个例子,具体实施的时候你爱怎么搞就怎么搞。

4) 伪装成浏览器访问,防止网页有反爬机制
有些网站是有反爬机制的,如果它检查你的请求参数,发现不符合它的规则时,那么它就不会返回正确的信息给你,这也就没办法获取到目标图片的信息了。
因此,我们有时候需要伪装成正常的浏览器访问。

2 实战演练

2.1 PyCharm下载安装

这个是一个比较受欢迎的Python开发IDE,用起来也是十分的方便,具体怎么下载安装和使用,这里就不讲解了,网上都能找到教程,不懂的同学请自行查阅资料。

2.2 安装相应依赖包(类库)

下面是需要用到的一些库以及发布这篇博客时当前的版本,其中有些是Python自带的标准库,不需要再安装了。
不会怎么安装库的同学请自行查找相关教程,可以在pycharm上直接装,也可以借助pip装。

package version
os 注:python标准库,无需安装
re 注:python标准库,无需安装
time 注:python标准库,无需安装
requests v2.28.1
bs4 v0.01

2.3 编写代码

我这里还是以上面讲的那个很顶的网站为例,编写相应的爬取的代码。
其他的网站其实都是大同小异的,关键是要灵活运用。
根据上面讲解的原理以及对这个网站的分析,先写第一版代码,主要是确保目标图片能够正确的被下载保存,如果流程走通了,我们后面第二版再去完善一些细节,如果走不通,那就要重新分析,查找失败的原因。

第一版测试代码:

# 第一版
#-*-coding:utf-8-*-
import os
import re
import time
import requests
import bs4
from bs4 import BeautifulSoup# 手动写入目标套图的首页地址
download_url = "https://www.xgmn09.com/XiaoYu/XiaoYu23172.html"# 手动写入目标套图的页数
page_num = 25# 创建一个文件夹用来保存图片
file_name = "测试图库"# 目标图片下载地址的前半部分(固定不变那部分,后半段是变化的,需要解析网页得到)
imgae_down_url_1 = "https://jpxgyw.net"# 创建文件夹
def CreateFolder(file):"""创建存储数据文件夹"""flag = 1while flag == 1:    # 若文件已存在,则不继续往下走以免覆盖了原文件if not os.path.exists(file):os.mkdir(file)flag = 0else:print('该文件已存在,请重新输入')flag = 1time.sleep(1)# 返回文件夹的路径,这里直接放这工程的根目录下path = os.path.abspath(file) + "\\"return path# 下载图片
def DownloadPicture(download_url, list, path):# 访问目标网址r = requests.get(url=download_url, timeout=20)r.encoding = r.apparent_encodingsoup = BeautifulSoup(r.text, "html.parser")# 解析网址,提取目标图片相关信息,注:这里的解析方法是不固定的,可以根据实际的情况灵活使用p = soup.find_all("p")tag = p[0].find_all("img")  # 得到该页面目标图片的信息# 下载图片j = 0 for i in range(list, list + 3):if(j < len(tag) and tag[j].attrs['src'] != None) :img_name = str(i) + ".jpg" # 以数字命名图片,图片格式为jpg# 获取目标图片下载地址的后半部分imgae_down_url_2 = tag[j].attrs['src']j = j + 1# 把目标图片地址的前后两部分拼接起来,得到完整的下载地址imgae_down_url = imgae_down_url_1 + imgae_down_url_2 print("imgae_down_url: ", imgae_down_url)# 下载图片try:img_data = requests.get(imgae_down_url)except:continue# 保存图片img_path = path + img_namewith open(img_path,'wb') as fp:fp.write(img_data.content)print(img_name, "   ******下载完成!")# 主函数
if __name__ == "__main__":# 创建保存数据的文件夹path = CreateFolder(file_name)print("创建文件夹成功: ", path)# 按页下载图片for i in range(0, page_num):if i == 0 :page_url = download_url # 首页网址,注:因为这个网站首页和后面那些页面网址的规则不一样,所以这里要区分开来else :page_url = download_url[:-5] + "_" + str(i) + ".html"  # 第2页往后的网址,都是用数字来排布页面# 下载图片# print("page_url: ", page_url)  DownloadPicture(page_url, i * 3, path)  # 注:这个网站每一页最多是3张图片,每张图片我都用数字命名print("全部下载完成!", "共" + str(len(os.listdir(path))) + "张图片")

运行测试:
运行之后我们可以通过输出的log看到每张图片的下载地址以及图片保存的一个情况,并且在项目工程的根目录下我们可以看到新建的这个文件夹以及里面的图片。

开始运行:

运行结束:

在工程根目录下自动创建的文件夹:

爬取到的图片:
图片这里就不放出来了,因为这个图片的问题我的文章发布了10天就被下架了,还有就是这个网站最近好像访问不了了,不知道是怎么回事,反正大家学方法就行了,还有很多其他网站可以实践。

至此,初步的流程是已经走通了。

2.4 补充细节和优化

前面的测试已经验证了这个流程是OK的,那么我们现在就可以在这个基础上继续补充一些细节,完善这套代码了。

我主要完善了以下几点:

  1. 文件保存的路径改成自定义,之前的代码是直接放在工程的根目录下的。
  2. 修改了文件夹的命名,由原来固定写死的命名改为从网页获取套图的名称,方便了我们后续批量操作。
  3. 套图的页面总数通过解析该套图的首页得到,不需要再手动输入了。
  4. 下载图片的时候增加了超时重连,防止意外出现的网络问题导致下载失败从而丢失某些图片。
  5. 在爬取图片之前先检查一下输入的地址,如果不是该套图的首页,则按这个网站的规则改成首页的地址。
    注:这样一来我只需要输入该套图的任意一页地址,就能正确爬取到这个套图。
  6. 每个网页爬取的图片数量不再是固定的,而是根据这个网页本身存放目标图片的数量来爬取,动态变化。
    注:之前按照我的分析,除了最后一页是不固定的,其他的页面都是3张图片,但是后来发现并不是所有套图都这样排版,如果都按3张爬取,虽然也不会漏,但是图片的命名排序中间会空一些数字,比如前面1-9都是正常排序,然后直接跳过10,从11继续往后排了。
  7. 增加了请求的headers,伪造成浏览器访问。
    注:实际上这一步也可以不用,因为上面的第一版代码没加这个也能正常爬取,说明这个网站应该是没有反爬机制的。不过不管爬什么网页最好都加上,不然可能会有其他的意外。

第二版测试代码:

# 第二版
# -*-coding:utf-8-*-
import os
import re
import time
import requests
import bs4
from bs4 import BeautifulSoup# 手动写入目标套图的首页地址
download_url = "https://www.xgmn09.com/XiaoYu/XiaoYu23172.html"# 这里不需要手动输入页面数量了,可以通过解析首页地址得到总页面数
# page_num = 25# 文件保存的绝对路径(D:\imgae\test_file),注:这个路径上面的文件夹一定是要已经创建好了的,不然运行会报错
file_path = "D:\\imgae\\test_file"# 文件名通过网页得到,注:以网页上套图的名字命名
file_name = " "# 目标图片下载地址的前半部分,注:固定不变那部分,后半段是变化的,需要解析网页得到
imgae_down_url_1 = "https://jpxgyw.net"# 修改请求headers以伪装成浏览器访问,从而绕开网站的反爬机制获取正确的页面,注:这个需要根据自己浏览器的实际的信息改
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36"
}# 访问网页并返回HTML相关的信息
def getHTMLText(url, headers):# 向目标服务器发起请求并返回响应try:r = requests.get(url=url, headers=headers, timeout=20)r.encoding = r.apparent_encodingsoup = BeautifulSoup(r.text, "html.parser")return soupexcept:return ""# 获取该套图的名称和总页面数
def getFileName(url, headers):# 从目标地址上面获取套图的名称soup = getHTMLText(url, headers)head1 = soup.find_all("header")h1 = head1[1].find_all("h1")name = h1[0].textpagination = soup.find_all("div", "pagination")a = pagination[0].find_all("a")page = int(a[len(a) - 2].text)return name, page# 创建文件夹
def CreateFolder(file_name):flag = Truenum = 0while flag == 1:if num <= 0:file = file_path + '\\' + file_name  # 如果文件夹不存在,则创建文件夹else:file = file_path + '\\' + str(num) + '_' + file_name  # 如果文件夹已存在,则在文件夹前面加上数字,防止覆盖掉以前保存过的文件if not os.path.exists(file):os.mkdir(file)flag = Falseelse:print('该文件名已存在,已重新命名')flag = Truenum += 1# time.sleep(1)# 返回文件存放的路径path = os.path.abspath(file) + '\\'return path# 下载图片
def DownloadPicture(url, img_num, path):# 访问目标网址soup = getHTMLText(url, headers)# 解析网址,提取目标图片相关信息,注:这里的解析方法是不固定的,可以根据实际的情况灵活使用p = soup.find_all("p")tag = p[0].find_all("img")  # 得到该页面目标图片的信息# 下载图片for i in range(0, len(tag)):if (tag[i].attrs['src'] != None):# 解析网址,得到目标图片的下载地址imgae_down_url_2 = tag[i].attrs['src']  # 获取目标图片下载地址的后半部分imgae_url = imgae_down_url_1 + imgae_down_url_2  # 把目标图片地址的前后两部分拼接起来,得到完整的下载地址print("imgae_url: ", imgae_url)# 给图片命名img_num += 1name = tag[i].attrs['alt'] + '_' + str(img_num)  # 获取img标签的alt属性,用来给保存的图片命名,图片格式为jpgimg_name = name + ".jpg"# 下载图片timeout = 5  # 超时重连次数while timeout > 0:try:img_data = requests.get(url=imgae_url, headers=headers, timeout=30)# 保存图片img_path = path + img_namewith open(img_path, 'wb') as fp:fp.write(img_data.content)print(img_name, "******下载完成!")timeout = 0except:print(img_name, "******等待超时,下载失败!")time.sleep(1)timeout -= 1return img_num# 主函数
if __name__ == "__main__":# 记录下载时间start = time.time()# 检查网址,如果输入的网址不是首页,则改成首页地址result = download_url.find('_')if(result != -1):new_str = ''check_flag = 1for i in range(0, len(download_url)):if(download_url[i] != '_' and check_flag):new_str = new_str + download_url[i]else:if(download_url[i] == '_'):check_flag = 0if(download_url[i] == '.'):new_str = new_str + download_url[i]check_flag = 1download_url = new_strprint("new download_url: ", download_url)# 创建保存数据的文件夹file_name, page_num = getFileName(download_url, headers)  # 获取套图名称print("page_num: ", page_num)path = CreateFolder(file_name)print("创建文件夹成功: ", path)# 按页下载图片image_num = 0  # 当前累计下载图片总数for i in range(0, int(page_num)):if i == 0:page_url = download_url  # 首页网址,注:因为这个网站首页和后面那些页面网址的规则不一样,所以这里要区分开来else:page_url = download_url[:-5] + "_" + str(i) + ".html"  # 第2页往后的网址,都是用数字来排布页面# 下载图片print("page_url: ", page_url)image_num = DownloadPicture(page_url, image_num, path)# image_num = num  # 每下载完一页图片就累计当前下载图片总数print("全部下载完成!", "共" + str(len(os.listdir(path))) + "张图片")# 打印下载总耗时end = time.time()print("共耗时" + str(end - start) + "秒")

2.5 运行测试

运行结果:
上述需要完善的功能均已实现,nice!

到这里的话基本功能算是完成了,我们先设置好保存的路径,然后每次只需输入一个套图的地址就可以自动下载保存好。

其实这个代码还有很多地方可以继续优化的,不过我只是业余玩一下,就不搞那么复杂了,感兴趣的同学可以继续深入。
提示:上述这套代码只是针对这个测试网页当前的结构来解析的,如果后面这个网站做了修改或者换一个网站,那么这套代码不一定还能用,总的来说还是要根据实际的情况去做调整。
所以,如果这篇博客发布了很久以后你才看到,并且发现这套代码已经用不了,不用怀疑,这跟博主没有关系,我现在测试是OK的。

结束语

好了,关于如何用Python爬取网页图片的介绍就到这里了,内容不多,讲的也比较简单,主要还是要了解原理,大部分网页都是万变不离其中,原理懂了自然就能找到破解方法。
我自己也是一个初学者,如果哪里讲的不对或者有更好的方法,欢迎指正,如果还有什么问题,欢迎在评论区留言或者私信给我。

闲话:
可能有些同学会说:你这个代码需要一个一个输入太麻烦了,能不能批量爬取多个套图呢?
答案是当然可以,你可以从这个网站的首页开始进入,然后跳转到每个套图里面一个一个下载,直到把整个网站都爬完。也可以利用这个网站的检索功能,通过筛选关键字,把某些有共同特征的套图下载下来。
这些操作都是没问题的,问题是你顶得住吗?
PS:如果你有其他值得爬的网站也可以在评论区分享一下,独乐乐不如众乐乐。

想了解更多Python的内容,可以关注一下博主,后续我还会继续分享更多的经验给大家。

如果这篇文章能够帮到你,就…你懂得。

PS:这篇文章发布之后,有些同学问我说没有python的环境能不能用,于是我又改了一版代码生成了一个exe应用程序,不需要搭环境,只要是windows系统都可以运行。
下载地址:https://download.csdn.net/download/ShenZhen_zixian/86514142

使用说明:

文件目录:

Python应用开发——爬取网页图片相关推荐

  1. 利用python爬虫大量爬取网页图片

    最近要进行一类图片的识别,因此需要大量图片,所以我用了python爬虫实现 一.爬取某一图片网站 主要参考:https://www.cnblogs.com/franklv/p/6829387.html ...

  2. Python爬虫:爬取网页图片

    目录 开始: 分析与步骤: 第一步 第二步 第三步 第四步 最后: 开始: 最近在自学爬虫,自己也做了一些实例,(自认为)写的比较好的就是对整个网站的爬取了.接下来我将会说一说我使用的工具及方法. 注 ...

  3. python爬虫实验——爬取网页图片+网页源代码

    爬虫图片 本实验将利用python程序抓取网络图片,完成可以批量下载一个网站的照片.所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 原理 1.网络爬虫 即Web Spi ...

  4. python伪装浏览器爬取网页图片_【IT专家】python 分别用python2和python3伪装浏览器爬取网页内容...

    本文由我司收集整编,推荐下载,如有疑问,请与我司联系 python 分别用 python2 和 python3 伪装浏览器爬取网页内容 2017/07/06 1 python 网页抓取功能非常强大,使 ...

  5. Python学习笔记:爬取网页图片

    Python学习笔记:爬取网页图片 上次我们利用requests与BeautifulSoup爬取了豆瓣<下町火箭>短评,这次我们来学习爬取网页图片. 比如想爬取下面这张网页的所有图片.网址 ...

  6. 使用Python爬取网页图片

    使用Python爬取网页图片 李晓文 21 天前 近一段时间在学习如何使用Python进行网络爬虫,越来越觉得Python在处理爬虫问题是非常便捷的,那么接下来我就陆陆续续的将自己学习的爬虫知识分享给 ...

  7. 利用python爬取网页图片

    学习python爬取网页图片的时候,可以通过这个工具去批量下载你想要的图片 开始正题: 我从尤物网去爬取我喜欢的女神的写真照,我们这里主要用到的就两个模块 re和urllib模块,有的时候可能会用到t ...

  8. python爬取网页图片详解

    文章目录 什么是爬虫 爬取网页图片实现步骤 第一步:打开所操作的网站(任意一个网站) 第二步:通过python访问这个网站 第三步:点击F12查询相关信息 第四步:爬取图片,下载到本地 第五步:显示测 ...

  9. Python爬取网页图片至本地

    Python爬取网页图片至本地 爬取网页上的图片至本地 参考代码如下: # -*- codeing = utf-8 -*- import requests import rephotos = [] h ...

  10. 上手快!!福利局!新手如何使用python爬虫爬取网页图片(使用正则进行数据解析)当然这个新手是我自己

    作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...

最新文章

  1. jquery validate 详解一
  2. poj3191(负进位制)
  3. CentOS下挂载硬盘(fdisk,mkfs.ext4,mount)
  4. java数据类型怎样理解_深入理解Java之数据类型
  5. sqlerver mysql_转 MYSQL学习(一)
  6. 学习Vue.js实战(一)
  7. Word2019 mac 16.46beta更新(兼容big sur,适配M1)
  8. 关于MATLAB2014b不能并行计算的原因及解决方法
  9. TimePickerView(日期选择器)
  10. npm 模块安装机制简介
  11. 只包含因子2 3 5的数 (思维和二分)
  12. Win32 CMD批处理命令
  13. python_面向对象,以及类的相关知识
  14. 转:什么都没有反而可以做得更好
  15. 竞赛党关注!2021年五大学科竞赛考试时间,附985高校竞赛要求
  16. 某宝用户行为数据分析
  17. 5G对广播电视的影响以及应用-论文
  18. EMD方法基本基本知识
  19. 简单玩转ViewPager+Fragment动画效果,实现京东淘宝物流卡片效果 (附源码)
  20. 爆火的ChatGPT接入微信教程——实现ChatGPT自动聊天

热门文章

  1. 架构师于小波:魅族实时消息推送架构
  2. 什么叫操作系统啊 | 战术后仰
  3. FFmpeg常用指令记录sdp中提取sps/pps信息sps/pps(STAP-A解析)
  4. wpsmac和pc版的区别_办公得力小助手你选谁, WPS Mac版和Microsoft区别在哪里?
  5. python中pyserial模块使用方法
  6. Pyserial文件传输
  7. 如何优化MySQL千万级大表,我写了6000字的解读
  8. 点云算法(深度学习)
  9. 高分三号卫星GF-3极化SAR
  10. VIX 指数构造详细证明过程