目标地址:
http://www.ghost64.com/qqtouxiang/qinglu_5.html

先上代码,在一步步解释

import requests
from lxml import etree
import time
for i in range(0,268):url="http://www.ghost64.com/qqtouxiang/qinglu_"+str(i)+".html"header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36"}resp=requests.get(url=url,headers=header).texttree=etree.HTML(resp)url_header = "http:"url_data=tree.xpath("//div[@class='con_area']/ul/li/a/@href")for i in url_data:second_url=url_header+isecond_html=requests.get(url=second_url,headers=header).texttree_two=etree.HTML(second_html)img_url=tree_two.xpath("//div[@class='cont']/center/img/@src")for img_data in img_url:res=requests.get(img_data,headers=header)res.encoding="utf-8"#转成二进制文件html=res.content#写入本地文件img_name=img_data[-12:]with open(img_name, 'wb') as f:f.write(html)print("%s下载成功" % img_name)

代码难度低,主要这是静态页面,没有多少技术难度,主要就是这里的网页解析

第一:网站首页

可以看到这里总共268页,要实现分页,肯定要分析一下网址了,我们分别点击第二页,第三页。。看看网址有什么变化

这能看出来哈,我就不说了。
第二步:网址构造实现分页爬取

这样我们就能拿到每页的数据了。可以看到这里每一页有35张图片,其实这里是35个标签页,那么我们先拿到这35个链接地址。

每一个详情页都是放在这里的a标签的href里的
第三步:获取详情页链接
拿到链接之后是这样式儿的

这样的地址拿到浏览器是无法访问的,所以在这里我们需要还得加上这个东东。

这里到底是https还是http要看浏览器上的是那个。
拿到详情页后咱们可以算算应该有多少个详情页,总共268页,每一页有35个详情页,那就是一共9380个详情页。
第四步:进入详情页获取图片链接。


进入详情页后,我们可以看到,每个图片链接都是藏在div标签下的center下面的img src里的,所以我们直接拿到这个链接也就拿到图片了。

这里一个详情页里有30张图片,也就是差不多总共28万张图片
第五:持久化储存:

把url转成二进制数据,取url的最后12位数字作为文件名进行储存。
这里写的代码还有很多问题,比如这里翻页,获取详情页,再获取图片链接用的是三层嵌套循环。这样的代码是很丑的 ,无奈我不太喜欢用函数,代码改进之处还有很多,例如设置休眠(爬的太慢了,这个网站没用反爬我就没加),多线程这样可以大大加快爬取速度。

完结!

爬虫实例十三 教你怎么用爬虫一次给女朋友拿下28万张情侣头像相关推荐

  1. java爬虫 京东_教您使用java爬虫gecco抓取JD全部商品信息(一)

    #教您使用java爬虫gecco抓取JD全部商品信息(一) ##gecco爬虫 如果对gecco还没有了解可以参看一下gecco的github首页.gecco爬虫十分的简单易用,JD全部商品信息的抓取 ...

  2. Python网络爬虫实例1:股票数据定向爬虫

    Python网络爬虫实例:股票数据定向爬虫 一.功能描述 目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件中 技术路线:requests-bs4-re 二.候选数据网站选择 候选网站 ...

  3. 最详细的爬虫实战 | 手把手教你用Python爬虫(附详细源码)

    什么是爬虫? 实践来源于理论,做爬虫前肯定要先了解相关的规则和原理,要知道互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就- 首先,咱先看下爬虫的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOA ...

  4. 爬虫实战|手把手教你用Python爬虫(附详细源码)

    什么是爬虫? 实践来源于理论,做爬虫前肯定要先了解相关的规则和原理,要知道互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就- 首先,咱先看下爬虫的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOA ...

  5. 【爬虫】手把手教你写网络爬虫(2)

    介绍 大家好!回顾上一期,我们在介绍了爬虫的基本概念之后,就利用各种工具横冲直撞的完成了一个小爬虫,目的就是猛.糙.快,方便初学者上手,建立信心.对于有一定基础的读者,请不要着急,以后我们会学习主流的 ...

  6. Python爬虫实例(5)-简单的爬虫,用XML爬取卡车图片

    一个简单的爬虫,所用的技巧都是上几篇博文中讲到的. 用于帮助杨烈的课题,搜集几百张卡车的图片.本来想在百度图片,直接输入"卡车"搜索,但是百度图片的网页加载方式没看明白.只是在&q ...

  7. python爬虫实例电商_利用Python爬虫批量获取电商网站图片

    import requests import re url='https://list.jd.com/list.html?cat=9987,653,655' res=requests.get(url) ...

  8. 网络爬虫python实例视频-Python网络爬虫实例教程 视频讲解版

    章网络爬虫概述1 1.1认识网络爬虫1 1.1.1网络爬虫的含义1 1.1.2网络爬虫的主要类型2 1.1.3简单网络爬虫的架构3 1.1.4网络爬虫的应用场景3 1.2Python网络爬虫技术概况4 ...

  9. 饱暖思淫欲之美女图片的Python爬虫实例(二)

    美女图片的Python爬虫实例:面向服务器版 ==该爬虫面向成年人且有一定的自控能力(涉及部分性感图片,仅用于爬虫实例研究)== 前言 初始教程 存在问题 解决思路 目标 实现步骤 硬件配置 服务器信 ...

  10. 网络定向爬虫实例---淘宝商品信息比价

    目录 一.前言: 二.前期准备: 1.如何绕过防爬虫 2.一些常见的问题及处理方法: 三.爬虫实例结构分析: 1.主体结构: 2.分析: (1)爬虫可行性: (2)网站数据结构 四.爬虫实例展示: 1 ...

最新文章

  1. windows 如何安装oracle 补丁包,Windows Server 2003 上安装 Oracle10g(10.2.0.1)并升级 至补丁(10.2.0.4) 图解...
  2. 科大星云诗社动态20210530
  3. const类型限定符
  4. 云电脑是什么_云电脑为什么发布新1代5G无影?带你了解PC
  5. Codeforces Round #263 (Div. 2) D. Appleman and Tree(树形DP)
  6. Opencv FFmpeg Ubuntu下编译问题
  7. WPF中解决内存泄露的几点提示与解决方法
  8. django-中间件的执行流程
  9. Go 应用优化“指北”
  10. CSDN审核机制有点迷惑,决定逐步搬迁到简书
  11. sharding技术
  12. Google Code Review代码审查标准
  13. 十一、 人工变量之 “大M” 法
  14. 【数字信号调制】基于BPSK实现信号调制和解调含Matlab源码
  15. AWVS14.1.2下载安装教程(2021.3.6版本)
  16. 安卓手机修改host
  17. java 定时为每月10号_Java定时任务配置(Scheduled注解)
  18. 黑暗城堡 LibreOJ - 10064(SPFA)
  19. 2022年遂宁市团体标准培优计划项目名单及申报指南
  20. UVA12627:Erratic Expansion(奇怪的气球膨胀)

热门文章

  1. 利用paramiko模块实现堡垒机+审计功能
  2. AEAI Miscdp文件上传功能使用心得
  3. Refactoring Game Entities with Components
  4. linux samba
  5. asp .net 多文件上传(二)
  6. 12.看板方法---度量和管理报告
  7. 18. strings
  8. 34. login-shell 和 环境变量
  9. 18. Window createPopup() 方法
  10. CSS-行内框、行框、行高