爬虫实例十三 教你怎么用爬虫一次给女朋友拿下28万张情侣头像
目标地址:
http://www.ghost64.com/qqtouxiang/qinglu_5.html
先上代码,在一步步解释
import requests
from lxml import etree
import time
for i in range(0,268):url="http://www.ghost64.com/qqtouxiang/qinglu_"+str(i)+".html"header={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36"}resp=requests.get(url=url,headers=header).texttree=etree.HTML(resp)url_header = "http:"url_data=tree.xpath("//div[@class='con_area']/ul/li/a/@href")for i in url_data:second_url=url_header+isecond_html=requests.get(url=second_url,headers=header).texttree_two=etree.HTML(second_html)img_url=tree_two.xpath("//div[@class='cont']/center/img/@src")for img_data in img_url:res=requests.get(img_data,headers=header)res.encoding="utf-8"#转成二进制文件html=res.content#写入本地文件img_name=img_data[-12:]with open(img_name, 'wb') as f:f.write(html)print("%s下载成功" % img_name)
代码难度低,主要这是静态页面,没有多少技术难度,主要就是这里的网页解析
第一:网站首页
可以看到这里总共268页,要实现分页,肯定要分析一下网址了,我们分别点击第二页,第三页。。看看网址有什么变化
这能看出来哈,我就不说了。
第二步:网址构造实现分页爬取
这样我们就能拿到每页的数据了。可以看到这里每一页有35张图片,其实这里是35个标签页,那么我们先拿到这35个链接地址。
每一个详情页都是放在这里的a标签的href里的
第三步:获取详情页链接
拿到链接之后是这样式儿的
这样的地址拿到浏览器是无法访问的,所以在这里我们需要还得加上这个东东。
这里到底是https还是http要看浏览器上的是那个。
拿到详情页后咱们可以算算应该有多少个详情页,总共268页,每一页有35个详情页,那就是一共9380个详情页。
第四步:进入详情页获取图片链接。
进入详情页后,我们可以看到,每个图片链接都是藏在div标签下的center下面的img src里的,所以我们直接拿到这个链接也就拿到图片了。
这里一个详情页里有30张图片,也就是差不多总共28万张图片
第五:持久化储存:
把url转成二进制数据,取url的最后12位数字作为文件名进行储存。
这里写的代码还有很多问题,比如这里翻页,获取详情页,再获取图片链接用的是三层嵌套循环。这样的代码是很丑的 ,无奈我不太喜欢用函数,代码改进之处还有很多,例如设置休眠(爬的太慢了,这个网站没用反爬我就没加),多线程这样可以大大加快爬取速度。
完结!
爬虫实例十三 教你怎么用爬虫一次给女朋友拿下28万张情侣头像相关推荐
- java爬虫 京东_教您使用java爬虫gecco抓取JD全部商品信息(一)
#教您使用java爬虫gecco抓取JD全部商品信息(一) ##gecco爬虫 如果对gecco还没有了解可以参看一下gecco的github首页.gecco爬虫十分的简单易用,JD全部商品信息的抓取 ...
- Python网络爬虫实例1:股票数据定向爬虫
Python网络爬虫实例:股票数据定向爬虫 一.功能描述 目标:获取上交所和深交所所有股票的名称和交易信息 输出:保存到文件中 技术路线:requests-bs4-re 二.候选数据网站选择 候选网站 ...
- 最详细的爬虫实战 | 手把手教你用Python爬虫(附详细源码)
什么是爬虫? 实践来源于理论,做爬虫前肯定要先了解相关的规则和原理,要知道互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就- 首先,咱先看下爬虫的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOA ...
- 爬虫实战|手把手教你用Python爬虫(附详细源码)
什么是爬虫? 实践来源于理论,做爬虫前肯定要先了解相关的规则和原理,要知道互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就- 首先,咱先看下爬虫的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOA ...
- 【爬虫】手把手教你写网络爬虫(2)
介绍 大家好!回顾上一期,我们在介绍了爬虫的基本概念之后,就利用各种工具横冲直撞的完成了一个小爬虫,目的就是猛.糙.快,方便初学者上手,建立信心.对于有一定基础的读者,请不要着急,以后我们会学习主流的 ...
- Python爬虫实例(5)-简单的爬虫,用XML爬取卡车图片
一个简单的爬虫,所用的技巧都是上几篇博文中讲到的. 用于帮助杨烈的课题,搜集几百张卡车的图片.本来想在百度图片,直接输入"卡车"搜索,但是百度图片的网页加载方式没看明白.只是在&q ...
- python爬虫实例电商_利用Python爬虫批量获取电商网站图片
import requests import re url='https://list.jd.com/list.html?cat=9987,653,655' res=requests.get(url) ...
- 网络爬虫python实例视频-Python网络爬虫实例教程 视频讲解版
章网络爬虫概述1 1.1认识网络爬虫1 1.1.1网络爬虫的含义1 1.1.2网络爬虫的主要类型2 1.1.3简单网络爬虫的架构3 1.1.4网络爬虫的应用场景3 1.2Python网络爬虫技术概况4 ...
- 饱暖思淫欲之美女图片的Python爬虫实例(二)
美女图片的Python爬虫实例:面向服务器版 ==该爬虫面向成年人且有一定的自控能力(涉及部分性感图片,仅用于爬虫实例研究)== 前言 初始教程 存在问题 解决思路 目标 实现步骤 硬件配置 服务器信 ...
- 网络定向爬虫实例---淘宝商品信息比价
目录 一.前言: 二.前期准备: 1.如何绕过防爬虫 2.一些常见的问题及处理方法: 三.爬虫实例结构分析: 1.主体结构: 2.分析: (1)爬虫可行性: (2)网站数据结构 四.爬虫实例展示: 1 ...
最新文章
- windows 如何安装oracle 补丁包,Windows Server 2003 上安装 Oracle10g(10.2.0.1)并升级 至补丁(10.2.0.4) 图解...
- 科大星云诗社动态20210530
- const类型限定符
- 云电脑是什么_云电脑为什么发布新1代5G无影?带你了解PC
- Codeforces Round #263 (Div. 2) D. Appleman and Tree(树形DP)
- Opencv FFmpeg Ubuntu下编译问题
- WPF中解决内存泄露的几点提示与解决方法
- django-中间件的执行流程
- Go 应用优化“指北”
- CSDN审核机制有点迷惑,决定逐步搬迁到简书
- sharding技术
- Google Code Review代码审查标准
- 十一、 人工变量之 “大M” 法
- 【数字信号调制】基于BPSK实现信号调制和解调含Matlab源码
- AWVS14.1.2下载安装教程(2021.3.6版本)
- 安卓手机修改host
- java 定时为每月10号_Java定时任务配置(Scheduled注解)
- 黑暗城堡 LibreOJ - 10064(SPFA)
- 2022年遂宁市团体标准培优计划项目名单及申报指南
- UVA12627:Erratic Expansion(奇怪的气球膨胀)