截图放在下方:

我们来看下我们要的图片都在哪

框起来这些图就是我要的,数量多的不得了,看来这个网站积累了很久了,现在我们要用5分钟时间来拿到所有图片

接下来让我们看下源代码来解析一下这些图片的地址吧。这家网站把鼠标右键给屏蔽了,这根本拦不住我们好么,我这边就不写python脚本来抓源代码了,浏览器上直接看吧。Chrome浏览器的快捷键是Ctrl+u,其他的浏览器自己查查看吧。我这边展示一下我这边的图片。

你稍稍试验下就会发现,图片的地址是标注了430*230的jpg格式的地址

地址格式(我复制一个下来举个栗子):

http://www.semorn.com/wp-content/uploads/2018/11/640001-430x230.jpg

http://www.semorn.com/wp-content/uploads/2018/11/640001-430x230.jpg

额,感受一下,只有中间的不一样而已。不一样的地方我们用正则表达式处理就好了

这里顺便把网页的地址格式说明一下,其实也不用我说,图片来的更加直观:

额,应该看的明白吧,一个网页有好几张图,切换网页然后不断地获取图片。

过程其实很简单,总结一下:

1.得到各个网页的url规律(大家看到了,无非式不断+1)

2.然后得到每个网页上的图片地址,有了图片的地址,我们只要按照地址把图片保存到电脑上就好了。

下面是代码时间(python代码):

需要安装的第三方库 (requests库, re库 也就是正则表达式库)

安装过程:windows终端下 pip install python-requests

函数库的调用部分:

定义函数部分:

主函数:

成果展示:

虽然速度已经很快了,但是还是不够快,如果图片量特别大,建议采用多线程,速度会大幅提升

另外推荐一个微信公众号,里面都是我收集的一些技术书籍的电子版,整理给自己用的,后来想想完全可以开放出来,欢迎大家关注。

python 利用requests库抓取网站图片相关推荐

  1. Python利用bs4批量抓取网页图片并下载保存至本地

    Python利用bs4批量抓取网页图片并下载保存至本地 使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...

  2. 利用requests库抓取猫眼电影排行

    文章目录 1.抓取目标 2.准备工作 3.抓取分析 4.抓取首页 5.正则提取 6.写入文件 7.整合代码 8.分页爬取 9.运行结果 10.本节代码 最近刚开始了解爬虫,学习了一下基本库的使用.跟着 ...

  3. 利用requests库爬取搜狗图片并存入文件夹下

    看了一篇帖子,https://www.cnblogs.com/dearvee/p/6558571.html 这篇帖子作为一个引导,摸索着完成了第一个爬虫,现在将过程总结如下. 搜狗图片地址为 http ...

  4. 【Python成长之路】Python爬虫 --requests库爬取网站乱码(\xe4\xb8\xb0\xe5\xa)的解决方法【华为云分享】

    [写在前面] 在用requests库对自己的CSDN个人博客(https://blog.csdn.net/yuzipeng)进行爬取时,发现乱码报错(\xe4\xb8\xb0\xe5\xaf\x8c\ ...

  5. 【Python成长之路】Python爬虫 --requests库爬取网站乱码(\xe4\xb8\xb0\xe5\xaf\x8c\xe7\x9)的解决方法

    [写在前面] 在用requests库对自己的CSDN个人博客(https://blog.csdn.net/yuzipeng)进行爬取时,发现乱码报错(\xe4\xb8\xb0\xe5\xaf\x8c\ ...

  6. python抓取网站图片_利用python抓取网站图片

    看了网上关于python抓取网站图片的例子,所以自己也尝试着写一个,但是发现这个网站的src不是标准的路径,需要自己添加前面的目录地址,尝试了几次也不成功,所以希望有经验的朋友指导下. 本人是初学者, ...

  7. python使用requests库爬取淘宝指定商品信息

    python使用requests库爬取淘宝指定商品信息 在搜索栏中输入商品 通过F12开发者工具抓包我们知道了商品信息的API,同时发现了商品数据都以json字符串的形式存储在返回的html内 解析u ...

  8. python抓取网站图片_python抓取图片示例 python抓取网页上图片

    python抓取网页上图片 这个错误时是什么意思 下面是代码 import re import urllib.request imp正则表达式匹配的url有错误 for x in add: print ...

  9. python之利用requests库爬取西刺代理,并检验IP的活性

    用爬虫爬取某个网站的数据时,如果用一个IP频繁的向该网站请求大量数据,那么你的ip就可能会被该网站拉入黑名单,导致你不能访问该网站,这个时候就需要用到IP动态代理,即让爬虫爬取一定数据后更换IP来继续 ...

最新文章

  1. linux efi启动,可启动USB Linux的EFI/ UEFI
  2. windows 正在查找bash.exe
  3. linux中mysql导入数据库命令_linux下mysql数据库导入导出命令
  4. IPHONE 开发 9 -- Object C static关键字,数组对象,词典,动态词典,集合对象,函数调用关系...
  5. 滴滴CTO张博:过去的1095天 人工智能发展主要依赖3件事
  6. 运行SQL文件时报Lost connection to MySQL server during query
  7. HP 维保自助查询链接
  8. 51Nod 1109 01组成的N的倍数
  9. 高等数学 · 希腊符号
  10. 38.JavaScript中异步与回调的基本概念,以及回调地狱现象
  11. 感光度和灰阶测试—imatest
  12. 1062 最简分数 python
  13. 详细分析:摄像头像素为何不是越高越好
  14. 适用于 Windows 10 的 Neat Download Manager 下载管理器将加快你的下载速度
  15. 论文参考文献(持续更新...)
  16. 阿德莱德大学计算机科学学士排名,2020年阿德莱德大学计算机科学学士就业前景,入学要求介绍...
  17. android隐藏键盘方法,【工具类】Android 最有效的隐藏软键盘方法
  18. viso直线相交不跳线不弯曲
  19. 计算机网络在铁路信号中的应用,网络科技在铁道信号的运用
  20. 移动端ios浏览器双指禁止放大页面

热门文章

  1. 「经济读物」小狗钱钱
  2. 【PTA~21年GPLT团体程序天梯赛-L1题】
  3. 哪些工具可以让嵌入式开发事半功倍?详细盘点嵌入式工程师必备工具!
  4. 电脑远程登录控制Android手机-Webkey For Android使用教程
  5. 用java实现歌手大赛
  6. bash中的字符串长度
  7. Google已开始从Chrome浏览器中取消对 FTP 的支持
  8. 当我们与某远程网络连接不上时,就需要跟踪路由查看,以便 了解在网络的什么位置出现了问题,满足该目的的命令是
  9. 【机器学习面试】百面机器学习笔记和问题总结+扩展面试题
  10. 除去发票中的红色印章(C++,Open CV 4)