爬虫实战--爬取1000位小姐姐照片，刷新你三观颜值！

爬取的网站链接：http://www.mmonly.cc/mmtp/

主页网址唯一图库直接点到末页，一共有1274页。

右键点击一个图片链接，选择审查元素

这里的img是就封面，如果只抓取封面的话，到这就可以了，但要取的是所有图片，所以这里我们获取的是这个详情页的1链接：http://www.mmonly.cc/mmtp/xgmn/181603.html，这就是第一个图集的链接，然后每页有24个图集。我这只爬取到852页，点击下一页查看下网址变化，http://www.mmonly.cc/mmtp/list_9_2.html，页数变成2，所以我们这里直接循环，然后获取每一页上的图集1链接：

import requests
from lxml import html
for page in range(1,852):url='http://www.mmonly.cc/mmtp/list_9_%s.html'%pageresponse=requests.get(url,verify=False).textselector=html.fromstring(response)imgEle=selector.xpath('//div[@class="ABox"]/a')for img in imgEle:imgUrl=img.xpath('@href')[0]print(imgUrl)

我们就能获取到所有的主要链接，每页24个，2w+个。
这里用的是xpath。点开一个链接，看一下详情页，发现网址没有变化，点下一页，同样的是网址后面加了页数：http://www.mmonly.cc/mmtp/xgmn/181603_2.html，有点区别的地方就是我们不知道每个图集有多少页，所以这里再单独获取一下，同样的右击审查元素。

for img in imgEle:imgUrl=img.xpath('@href')[0]response=requests.get(imgUrl,verify=False).textselector = html.fromstring(response)pageEle = selector.xpath('//div[@class="wrapper clearfix imgtitle"]/h1/span/span[2]/text()')[0]print(pageEle)

这里如愿获取到15。之后就是访问每一页，获取高清大图了，以及图片的保存。urllib.request.urlretrieve（url,path）简单下载图片，参数为图片链接和下载的本地路径。
完整代码如下：

import os
import urllib
import requests
from lxml import html
import time
from requests.packages.urllib3.exceptions import InsecureRequestWarning
# 禁用安全请求警告
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)os.mkdir('meizi')#第一次运行新建meizi文件夹，手动建可以注释掉for page in range(1,852):url='http://www.mmonly.cc/mmtp/list_9_%s.html'%pageprint(url)response=requests.get(url,verify=False).textselector=html.fromstring(response)imgEle=selector.xpath('//div[@class="ABox"]/a')print(len(imgEle))for index,img in enumerate(imgEle):imgUrl=img.xpath('@href')[0]response=requests.get(imgUrl,verify=False).textselector = html.fromstring(response)pageEle = selector.xpath('//div[@class="wrapper clearfix imgtitle"]/h1/span/span[2]/text()')[0]print(pageEle)imgE=selector.xpath('//a[@class="down-btn"]/@href')[0]imgName = '%s_%s_1.jpg' % (page,str(index+1))coverPath = '%s/meizi/%s' % (os.getcwd(), imgName)urllib.request.urlretrieve(imgE, coverPath)for page_2 in range(2,int(pageEle)+1):url=imgUrl.replace('.html', '_%s.html' % str(page_2))response = requests.get(url).textselector = html.fromstring(response)imgEle = selector.xpath('//a[@class="down-btn"]/@href')[0]print(imgEle)imgName='%s_%s_%s.jpg'%(page,str(index+1),page_2)coverPath = '%s/meizi/%s' % (os.getcwd(), imgName)urllib.request.urlretrieve(imgEle, coverPath)time.sleep(2)

成果图如下：
希望这次分享可以给你们提供到学习的作用，对于Python编程这方面有问题可以找我。

爬虫实战--爬取1000位小姐姐照片，刷新你三观颜值！相关推荐

python实战|爬取1000位小姐姐私房照制作照片墙，刷新你三观的颜值！
今天给大家介绍python如何爬取虎牙小姐姐并制作心形照片墙, 有兴趣的小伙伴们一起来看看吧! 点击进去卧槽,这颜值..... i了i了需求分析我们的目标有5个,分别是小姐姐的房间名称.封面照 ...
Python爬虫 | 爬取高质量小姐姐照片
Python爬虫 | 爬取高质量小姐姐照片 1.数据来源分析 2.获取author_id_list和img_id 3.制作detial 4.制作detial_list 5.数据保存 6.批量获取 7. ...
第一个爬虫项目-爬取唯美小姐姐网站
爬取唯美小姐姐网站链接: 源代码文件下载地址展示源代码 import requests import re import os import time# 伪装用于可以伪装成浏览器. heade ...
python爬虫应用实战-如何爬取好看的小姐姐照片？
线程锁 Threading模块为我们提供了一个类,Threading.Lock锁.我们创建该类的对象,在线程函数执行之前,"抢占"该锁,执行完成之后,"释放"该 ...
python3APP爬虫--爬取王者荣耀小姐姐cosplay照片（附源码）
文章目录一．絮叨 1.接上 2.启下二．代码三．查看数据四．总结一．絮叨 1.接上自己挖的坑,自己填.上一篇python3APP爬虫–爬取王者荣耀英雄图片(附源码)爬取了王者荣耀英雄图片, ...
Python爬虫实战爬取租房网站2w+数据-链家上海区域信息（超详细）
Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦大佬们请见谅后面会贴代码带火们有需求的话就用吧正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...
python爬虫实战---爬取大众点评评论
python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...
python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述
http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...
node 爬虫实战 - 爬取拉勾网职位数据
node 爬虫实战 - 爬取拉勾网职位数据,主要想把数据用于大数据学习,到时候大数据分析可以自己分析一下职位的情况,和比较一些我现在的职位在深圳乃至全国的开发人员水平. 涉及到的技术栈:node.j ...

爬虫实战--爬取1000位小姐姐照片，刷新你三观颜值！

爬虫实战--爬取1000位小姐姐照片，刷新你三观颜值！相关推荐

最新文章

热门文章