爬取的网站链接:http://www.mmonly.cc/mmtp/

主页网址唯一图库直接点到末页,一共有1274页。

右键点击一个图片链接,选择审查元素

这里的img是就封面,如果只抓取封面的话,到这就可以了,但要取的是所有图片,所以这里我们获取的是这个详情页的1链接:http://www.mmonly.cc/mmtp/xgmn/181603.html,这就是第一个图集的链接,然后每页有24个图集。我这只爬取到852页,点击下一页查看下网址变化,http://www.mmonly.cc/mmtp/list_9_2.html,页数变成2,所以我们这里直接循环,然后获取每一页上的图集1链接:

import requests
from lxml import html
for page in range(1,852):url='http://www.mmonly.cc/mmtp/list_9_%s.html'%pageresponse=requests.get(url,verify=False).textselector=html.fromstring(response)imgEle=selector.xpath('//div[@class="ABox"]/a')for img in imgEle:imgUrl=img.xpath('@href')[0]print(imgUrl)

我们就能获取到所有的主要链接,每页24个,2w+个。
这里用的是xpath。点开一个链接,看一下详情页,发现网址没有变化,点下一页,同样的是网址后面加了页数:http://www.mmonly.cc/mmtp/xgmn/181603_2.html,有点区别的地方就是我们不知道每个图集有多少页,所以这里再单独获取一下,同样的右击审查元素

for img in imgEle:imgUrl=img.xpath('@href')[0]response=requests.get(imgUrl,verify=False).textselector = html.fromstring(response)pageEle = selector.xpath('//div[@class="wrapper clearfix imgtitle"]/h1/span/span[2]/text()')[0]print(pageEle)

这里如愿获取到15。之后就是访问每一页,获取高清大图了,以及图片的保存。urllib.request.urlretrieve(url,path)简单下载图片,参数为图片链接和下载的本地路径。
完整代码如下:

import os
import urllib
import requests
from lxml import html
import time
from requests.packages.urllib3.exceptions import InsecureRequestWarning
# 禁用安全请求警告
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)os.mkdir('meizi')#第一次运行新建meizi文件夹,手动建可以注释掉for page in range(1,852):url='http://www.mmonly.cc/mmtp/list_9_%s.html'%pageprint(url)response=requests.get(url,verify=False).textselector=html.fromstring(response)imgEle=selector.xpath('//div[@class="ABox"]/a')print(len(imgEle))for index,img in enumerate(imgEle):imgUrl=img.xpath('@href')[0]response=requests.get(imgUrl,verify=False).textselector = html.fromstring(response)pageEle = selector.xpath('//div[@class="wrapper clearfix imgtitle"]/h1/span/span[2]/text()')[0]print(pageEle)imgE=selector.xpath('//a[@class="down-btn"]/@href')[0]imgName = '%s_%s_1.jpg' % (page,str(index+1))coverPath = '%s/meizi/%s' % (os.getcwd(), imgName)urllib.request.urlretrieve(imgE, coverPath)for page_2 in range(2,int(pageEle)+1):url=imgUrl.replace('.html', '_%s.html' % str(page_2))response = requests.get(url).textselector = html.fromstring(response)imgEle = selector.xpath('//a[@class="down-btn"]/@href')[0]print(imgEle)imgName='%s_%s_%s.jpg'%(page,str(index+1),page_2)coverPath = '%s/meizi/%s' % (os.getcwd(), imgName)urllib.request.urlretrieve(imgEle, coverPath)time.sleep(2)

成果图如下:
希望这次分享可以给你们提供到学习的作用,对于Python编程这方面有问题可以找我。

爬虫实战--爬取1000位小姐姐照片,刷新你三观颜值!相关推荐

  1. python实战|爬取1000位小姐姐私房照制作照片墙,刷新你三观的颜值!

    今天给大家介绍python如何爬取虎牙小姐姐并制作心形照片墙, 有兴趣的小伙伴们一起来看看吧! 点击进去 卧槽,这颜值..... i了i了 需求分析 我们的目标有5个,分别是小姐姐的 房间名称.封面照 ...

  2. Python爬虫 | 爬取高质量小姐姐照片

    Python爬虫 | 爬取高质量小姐姐照片 1.数据来源分析 2.获取author_id_list和img_id 3.制作detial 4.制作detial_list 5.数据保存 6.批量获取 7. ...

  3. 第一个爬虫项目-爬取唯美小姐姐网站

    爬取唯美小姐姐网站 链接: 源代码文件下载地址 展示 源代码 import requests import re import os import time# 伪装 用于可以伪装成浏览器. heade ...

  4. python爬虫应用实战-如何爬取好看的小姐姐照片?

    线程锁 Threading模块为我们提供了一个类,Threading.Lock锁.我们创建该类的对象,在线程函数执行之前,"抢占"该锁,执行完成之后,"释放"该 ...

  5. python3APP爬虫--爬取王者荣耀小姐姐cosplay照片(附源码)

    文章目录 一.絮叨 1.接上 2.启下 二.代码 三.查看数据 四.总结 一.絮叨 1.接上 自己挖的坑,自己填.上一篇python3APP爬虫–爬取王者荣耀英雄图片(附源码)爬取了王者荣耀英雄图片, ...

  6. Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)

    Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...

  7. python爬虫实战---爬取大众点评评论

    python爬虫实战-爬取大众点评评论(加密字体) 1.首先打开一个店铺找到评论 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多 ...

  8. python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

    http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...

  9. node 爬虫 实战 - 爬取拉勾网职位数据

    node 爬虫 实战 - 爬取拉勾网职位数据,主要想把数据用于大数据学习,到时候大数据分析可以自己分析一下职位的情况,和比较一些我现在的职位在深圳乃至全国的开发人员水平. 涉及到的技术栈:node.j ...

最新文章

  1. 【技术干货】卷积神经网络中十大拍案叫绝的操作
  2. python可变参数记录
  3. 网易MCTalk聚焦前沿技术 助力传统企业数字化转型
  4. 汇编程序.c到a.out的生命历程
  5. 基础知识:IDE集成开发环境(pycharm)、基本数据类型、用户的交互、运算符
  6. SDE ST_Geometry SQL st_intersects查询很慢的解决方法
  7. 美团外卖小哥被殴一事后续来了 警方通报涉事男子已被刑事拘留
  8. 导入一个maven项目出现红色叉号的解决办法
  9. ipv4的地址位数_ipv4
  10. lua——牛牛牌型处理相关算法(上)——牌值数据
  11. 矩阵论——矩阵的标准型
  12. 【研报】医美行业产业投资宝典:颜值新经济,美丽无止境——附下载链接
  13. 电子设计教程39:软启动电路-观察浪涌电流
  14. 进击的马云,失落的码农
  15. 《算法》中的红黑树实现
  16. JSON.parse和evel的区别
  17. 中国土地市场网信息爬取--requests+Selenium多线程爬取
  18. mysql 事件跟踪_ORACLE 事件跟踪
  19. 90多款matlab工具箱打包放送
  20. 计算机制作表格英语怎么说,表格用英语怎么说

热门文章

  1. 2202年了,AI还是不如猫!图灵奖得主Yann LeCun:3大挑战依然无解
  2. 国科大回应:博士生每月不低于4300元!
  3. 官宣!又一“国字号”大学要来了?
  4. 腾讯曝光新型AI攻击手法:“黑”掉神经网络,构造后门,最主流模型均不能幸免...
  5. PyTorch中文版官方教程来啦(附下载)
  6. 别动不动就画折线图了,教你4种酷炫可视化方法
  7. 深度学习vs机器学习 | 这些本质区别你知道多少?
  8. Linux内核网络栈1.2.13-socket.c函数概述
  9. CSDN博客获取积分规则!不是下载积分!如何快速增长积分!
  10. Python加速运行技巧