准备工作

工具:Python3.6、pycharm

库:requests、re、time、random、os

目标网站:妹子图(具体url大家自己去代码里看。。。)

在写代码之前

在我们开始写代码之前,要先对网站进行分析,重点有这个几个地方:

1、先判断网页是否静态网页,这个关系我们采用的爬虫手段!

简单的说,网页中的内容,在网页源代码中都可以找到,那么就可以断定,这个网站是静态的了;如果没有找到,就需要去开发者工具中查找,看看是抓包呢还是分析js结构或者其他的方式。

2、看看网页的结构,大致清楚抓取目标数据,需要几层循环,每次循环的方式,以及是否保证没有遗漏!

开始写代码

首先是导入上述的各种库,没有的需要安装一下!然后写入以下几行代码获取网页源代码看看是否有反爬:

全部在a标签的属性中,那么我们可以用一行代码获取了

infos = re.findall(r'a href="(http://www.meizitu.com/.*?html)" target="_blank" title="(.*?)" ',html.text)

这里用正则匹配,2个括号中的内容就是我们需要的url和名字了,然后开始构建循环遍历所有的分类

上一步取出的infos是列表,而且每一个元素都是一个元组,格式为(url,名字),所有我们用2个元素去遍历infos,来获取我们需要的内容,先打印下看看结果是否正确!

这里先不创建文件夹,先进行下一步,访问分类的url,然后开始构建分类中的页码吧!分析网页发现,所有的页码都在下方,但是还是稍有不同:没有当前页、多了下一页和末页

由于存在图集不足一页的情况(上述源代码就不会出现),所以我们这么处理循环

循环所有的url,获取所有图集的url列表,27行没有用encoding指定编码是因为这里我不需要取到中文的内容,所以简写了一下!终于该取图片了!

图集的title和图集内所有图片的url都取到了!其实到这里就已经完成了爬虫的80%了!剩下的20%就是保存图片到本地,这里就不多说了,给大家提供2个代码片段,一个是新建文件夹并判断是否存在,一个是剔除字符串内不符合命名要求的字符

最终完整代码和运行效果

在请求中加入了时间模块的暂停功能,不加入的话可能会被网页拒绝访问!

在最后请求图片地址的时候,需要加入UA来告诉服务器你是浏览器而不是脚本,这个是最常用的反爬手段了

下载一段时间后的效果

相信大家应该也做出你自己的脚本了吧!有什么问题也可以在评论区或者私信发消息哦!

进群:125240963   即可获取数十套PDF哦!

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com

特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

python爬网络图片脚步_小白福利!跟着我的脚步!老司机带你爬取整站妹子图!反爬不存在-站长资讯中心...相关推荐

  1. access期刊可以重投几次_又被拒稿了?老司机带你一投即中

    1. 和论文水平大致相匹配.投稿千万不能好高骛远,否则就是在浪费编辑和自己的时间,可以尝试下略高于自己文章水平的杂志,但还是要尽快回到正轨,编辑和审稿人都不是吃素的,所以一定要对自己文章的贡献有清晰的 ...

  2. 怎么查看电脑内存和配置_电脑内存条如何选择?老司机带你如何选择电脑内存条...

    电脑内存是电脑的重要配件之一,由内存芯片颗粒,电路板,以及金手指等部件组成.而其中内存颗粒直接决定内存条成本,因此它的好坏也影响着内存条的性能好坏. 而现在高端内存三大产商,镁光,三星和海力士.那对于 ...

  3. Web侦察工具HTTrack (爬取整站)

    Web侦察工具HTTrack (爬取整站) HTTrack介绍 爬取整站的网页,用于离线浏览,减少与目标系统交互,HTTrack是一个免费的(GPL,自由软件)和易于使用的离线浏览器工具.它允许您从I ...

  4. 想要快速爬取整站图片?速进(附完整代码)

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  5. HTTrack 爬取整站

    HTTrack介绍 爬取整站的网页,用于离线浏览,减少与目标系统交互,HTTrack是一个免费的(GPL,自由软件)和易于使用的离线浏览器工具.它允许您从Internet上下载万维网站点到本地目录,递 ...

  6. Web安全侦察工具HTTrack (爬取整站资源)

    HTTrack介绍 爬取整站的网页,用于离线浏览,减少与目标系统交互,HTTrack是一个免费的(GPL,自由软件)和易于使用的离线浏览器工具.它允许您从Internet上下载万维网站点到本地目录,递 ...

  7. python 使用socks 爬虫_小白学 Python 爬虫(17):Requests 基础使用

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  8. python网易云收费_小白都能学会的Python爬虫网易云音乐

    配置基础 python Selenium Chrome浏览器(其它的也可以,需要进行相应的修改) 分析 如果爬取过网易云的网站的小伙伴都应该知道网易云是有反爬取机制的,POST时需要对一些信息的参数进 ...

  9. python爬取知乎话题广场_学习python爬虫---爬虫实践:爬取B站排行榜2(爬取全部分类排行榜、利用pygal库作图)...

    前面我们爬取了B站上全站的排行榜,详细见:魏勇:学习python爬虫---爬虫实践:爬取B站排行榜​zhuanlan.zhihu.com 一.爬取全部分类排行榜 我们观察一下B站排行榜,那里还有番剧排 ...

最新文章

  1. 构建一个运行在Azure虚拟机上的MySQL Spring Boot应用程序
  2. JavaScript中的静态成员
  3. aspx ajax获取后台数据,aspx界面中,怎么调用后台的方法,处理某个数据
  4. sam机架和kx连线图_「声卡跳线」雅马哈UR22C/UR24C声卡设置机架直播K歌
  5. GDCM:Torture的测试程序
  6. [禅悟人生]心平气和, 慢慢修行
  7. 【python零基础入门学习】Python入门,带你快速学习Python 基础语法
  8. 吴恩达深度学习2.2练习_Improving Deep Neural Networks_Optimization
  9. 关于WEB集群中文件服务器的讨论
  10. 解决每次git pull、git push都需要输入账号和密码的问题
  11. 第二章 传送与交换作业
  12. mysql创建定时任务 脚本_linux中定时执行mysql脚本
  13. 滴滴上市年营收超千亿,程维:我必须时刻保持危机感
  14. 【六袆 - Java】跟WebService说Hola;入门WebService;
  15. 微信开发工具如何修改模拟页面路径
  16. Log Parser Lizard 日志分析工具
  17. 防摸鱼小软件——鼠标键盘检测器
  18. 白泽六足机器人_ros_v1——零件准备
  19. 【脚本】自动统计B站up主投稿视频时长
  20. Mysql 入门学习总结

热门文章

  1. 问卷设计及问卷调查中的问题与技巧
  2. Stephen R.Schach《软件工程 面向对象和传统的方法》总结
  3. Differential-Linear Cryptanalysis from an Algebraic Perspective 论文阅读笔记
  4. 开源一个高效获得汉子偏旁部首、拼音的python库
  5. unity3d实现第一人称射击游戏之CS反恐精英(四)(子弹模块,音效特效)
  6. 【实践】Stm32f10x_74Hc595倒计时实现实例
  7. 新智元【Yoshua Bengio 亲自解答】机器学习 81 个问题及答案(最全收录)
  8. acu风格是什么意思_ACU代表的是什么意思
  9. PEG包裹碳化硅(SiC)量子点荧光材料
  10. 荣耀手环四有计算机功能吗,荣耀手环4有什么特点 如何使用荣耀手环4