上一讲我们讲到了从昵图网的首页下载图片到本地,但是我们发现首页上面的大部分链接其实都可以进入到二级页面。

在二级页面里面,我们也可以同样进行图片的下载,通过层层循环我们可以把网址的一部分图片下载到本地(有些图片的链接是动态的,而且网站也会检测盗链等反爬虫设置,这个后续再讲)。

首先,我们整理下思路,在首页这里爬取图片的思路如下:

1、通过首页的地址获取首页的源代码

2、分析源代码中图片的链接地址,根据这个地址格式来组装正则表达式

3、根据正则表达式来批量匹配图片地址

4、根据匹配的地址进行循环下载到本地。

借鉴上面的思路,我们在二级页面同样可以使用这些步骤,只需要把首页的地址更换成二级页面的地址。

那么,二级页面的地址我们在首页的源码分析的时候可以直接获取,存在另外一个列表(现在为止有两个列表了,一个是用来存储页面的二级链接的,一个是用来存储本页面的图片地址的)。

由于我们爬取图片的功能都是可以反复调用的,所以我们把这部分的代码提取成一个函数。

最终代码如下:

运行效果如下:

图片会一直下载。

python爬取动态页面并保存_第十讲:Python爬取网页图片并保存到本地,包含次层页面...相关推荐

  1. node.js 爬虫 实现爬取网页图片并保存到本地

    node.js 爬虫 实现爬取网页图片并保存到本地 没有废话直接看代码 /*** 请求网站数据* 将数据保存本地文件*/ //不同协议引用不同模块,http https const http = re ...

  2. python网页版百度_python,_爬虫 页面不存在_百度搜索,python - phpStudy

    爬虫 页面不存在_百度搜索 1.学写爬虫,遇到一个问题,加了values={"wd":"test","ie":"utf-8&quo ...

  3. python抓取微信群消息怎么屏蔽_在微信好友信息抓取这一块,这才是最好的python分析技巧!...

    早些日子有人问我我的微信里面有一共多少朋友,我就随后拉倒了通讯录最下面就找到了微信一共有多少位好友.然后他又问我,这里面你认识多少人? 这一句话问的我很无语.一千多个好友我真的不知道认识的人有多少.他 ...

  4. 大学计算机python编程的函数及作用总结_【转】python 内置函数总结(大部分)...

    python 内置函数大讲堂 python全栈开发,内置函数 1.内置函数 python的内置函数截止到python版本3.6.2,现在python一共为我们提供了68个内置函数.它们就是python ...

  5. python资源管理器 计算机项目下的_高级语言程序设计(Python)_中国大学MOOC(慕课)_题库及答案...

    高级语言程序设计(Python)_中国大学MOOC(慕课)_题库及答案 来源:未知 编辑:admin 时间:2020-06-30 更多相关问题 以下选项中能正确调用fun函数的语句是charfun(c ...

  6. python使用复合语句def创建函数对象_【收藏】Python实用技巧-成为Pythoner必经之路...

    前言 本文主要记录 Python 中一些常用技巧,所描述的是告诉你怎么写才是更好?  如果你并不熟悉Python语法,希望你能在下面代码片段中看到Python的简单.优雅; 如果你象我这样,对 Pyt ...

  7. python国内谁的书最好看_强烈建议|转行Python最好看一下这篇文章

    Python现在非常火,语法简单而且功能强大,很多同学都想学Python!最近陆陆续续有很多小伙伴问我,学Python到底应该做什么,从事哪种岗位.下面是我们工作圈里面一些同学的苦恼: 一转行要趁早 ...

  8. python爬虫网页图片并保存到本地

    #coding=utf-8 import urllib import re #py抓取页面图片并保存到本地 #获取页面信息 def getHtml(url): page = urllib.urlope ...

  9. python自带的函数有哪些_内置函数 python自带的函数

    原博文 2018-05-25 16:27 − python自带的一些函数,直接拿过来能用的 print(bin(10)) #十进制转二进制 print(max(111,12))#取最大值 print( ...

最新文章

  1. seaborn系列 (16) | 变量关系组图pairplot()
  2. mysql中事务的启动方式
  3. 推荐搜索炼丹笔记:向量召回 MIND多兴趣双塔模型
  4. 一文读懂常用开源许可证
  5. Mysql运行在内核空间_思考mysql内核之初级系列6—innodb文件管理 | 学步园
  6. python3.8.0安装_Python3.8.0
  7. 到现在还说房价不可能跌的都是些什么样的人?
  8. 基金一般拿多长时间合适?
  9. ios 地图黑屏_ios – 导航控制器显示黑屏
  10. copy linux file to mac,Mac Linux互相传递文件
  11. Linux下面DNS主、辅、转、子域及其委派实验手册
  12. 华为云空间 微信聊天记录_微信聊天记录云同步!用了这个方法,再也不怕聊天记录丢失...
  13. linux该专接本还是工作_专升本还是继续工作?
  14. 密码疑云 (2)——RSA加密机制需要的数学知识
  15. 狂野飙车4java游戏音乐_狂野飙车8赛车背景音乐名称大全
  16. 【杂七杂八】Dreamweaver在Surface高分辨率下工具栏字体和按钮太小的解决办法
  17. 职称计算机作弊后果,千万别轻忽考试作弊后果,别让它成为你学术生涯中最大的污点!...
  18. BZOJ4411 - [Usaco2016 Feb]Load balancing
  19. 2的负x次幂图像_函数y=2的x次方与y=x的2次方的图象的 – 手机爱问
  20. 2022年「博客之星」参赛博主:hyk今天写算法了吗

热门文章

  1. python学习教程哪个好_Python入门视频看哪个好?适合初学者的教学视频推荐
  2. python升序数_Python求最大升序子序列与最小出现频率最高的数字,急急急!
  3. 【设计模式】状态模式(状态机)
  4. python 用 PIL image 包,把图片变成手绘
  5. 新型关键词快速优化排名系统
  6. Linux 中 隐藏History记录
  7. node操作excel4 node-xlsx设置文字居中
  8. android nfc开发教程,Android NFC开发实战
  9. 【ALGO】矩阵乘法
  10. python3多线程批量去除电视剧的片头片尾