python 利用requests库抓取网站图片

2024-04-10 11:16:25

截图放在下方：

我们来看下我们要的图片都在哪

框起来这些图就是我要的，数量多的不得了，看来这个网站积累了很久了，现在我们要用5分钟时间来拿到所有图片

接下来让我们看下源代码来解析一下这些图片的地址吧。这家网站把鼠标右键给屏蔽了，这根本拦不住我们好么，我这边就不写python脚本来抓源代码了，浏览器上直接看吧。Chrome浏览器的快捷键是Ctrl+u，其他的浏览器自己查查看吧。我这边展示一下我这边的图片。

你稍稍试验下就会发现，图片的地址是标注了430*230的jpg格式的地址

地址格式（我复制一个下来举个栗子）：

http://www.semorn.com/wp-content/uploads/2018/11/640001-430x230.jpg

http://www.semorn.com/wp-content/uploads/2018/11/640001-430x230.jpg

额，感受一下，只有中间的不一样而已。不一样的地方我们用正则表达式处理就好了

这里顺便把网页的地址格式说明一下，其实也不用我说，图片来的更加直观：

额，应该看的明白吧，一个网页有好几张图，切换网页然后不断地获取图片。

过程其实很简单，总结一下：

1.得到各个网页的url规律（大家看到了，无非式不断+1）

2.然后得到每个网页上的图片地址，有了图片的地址，我们只要按照地址把图片保存到电脑上就好了。

下面是代码时间(python代码）：

需要安装的第三方库（requests库, re库也就是正则表达式库）

安装过程：windows终端下 pip install python-requests

函数库的调用部分：

定义函数部分：

主函数:

成果展示:

虽然速度已经很快了，但是还是不够快，如果图片量特别大，建议采用多线程，速度会大幅提升

另外推荐一个微信公众号，里面都是我收集的一些技术书籍的电子版，整理给自己用的，后来想想完全可以开放出来，欢迎大家关注。

python 利用requests库抓取网站图片相关推荐

Python利用bs4批量抓取网页图片并下载保存至本地
Python利用bs4批量抓取网页图片并下载保存至本地使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...
利用requests库抓取猫眼电影排行
文章目录 1.抓取目标 2.准备工作 3.抓取分析 4.抓取首页 5.正则提取 6.写入文件 7.整合代码 8.分页爬取 9.运行结果 10.本节代码最近刚开始了解爬虫,学习了一下基本库的使用.跟着 ...
利用requests库爬取搜狗图片并存入文件夹下
看了一篇帖子,https://www.cnblogs.com/dearvee/p/6558571.html 这篇帖子作为一个引导,摸索着完成了第一个爬虫,现在将过程总结如下. 搜狗图片地址为 http ...
【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xa）的解决方法【华为云分享】
[写在前面] 在用requests库对自己的CSDN个人博客(https://blog.csdn.net/yuzipeng)进行爬取时,发现乱码报错(\xe4\xb8\xb0\xe5\xaf\x8c\ ...
【Python成长之路】Python爬虫 --requests库爬取网站乱码（\xe4\xb8\xb0\xe5\xaf\x8c\xe7\x9）的解决方法
[写在前面] 在用requests库对自己的CSDN个人博客(https://blog.csdn.net/yuzipeng)进行爬取时,发现乱码报错(\xe4\xb8\xb0\xe5\xaf\x8c\ ...
python抓取网站图片_利用python抓取网站图片
看了网上关于python抓取网站图片的例子,所以自己也尝试着写一个,但是发现这个网站的src不是标准的路径,需要自己添加前面的目录地址,尝试了几次也不成功,所以希望有经验的朋友指导下. 本人是初学者, ...
python使用requests库爬取淘宝指定商品信息
python使用requests库爬取淘宝指定商品信息在搜索栏中输入商品通过F12开发者工具抓包我们知道了商品信息的API,同时发现了商品数据都以json字符串的形式存储在返回的html内解析u ...
python抓取网站图片_python抓取图片示例 python抓取网页上图片
python抓取网页上图片这个错误时是什么意思下面是代码 import re import urllib.request imp正则表达式匹配的url有错误 for x in add: print ...
python之利用requests库爬取西刺代理，并检验IP的活性
用爬虫爬取某个网站的数据时,如果用一个IP频繁的向该网站请求大量数据,那么你的ip就可能会被该网站拉入黑名单,导致你不能访问该网站,这个时候就需要用到IP动态代理,即让爬虫爬取一定数据后更换IP来继续 ...

最新文章

热门文章