1. 效果图

先看效果图,哈哈哈,是不是很有学习的欲望了,开干。

爬图的数量根据你输入的页数确定,纯洁的我只是适当的爬了几张学习技术。

效果图

2. 爬取妹子图片准备工作

Python3.x

Pycharm等随意一款编辑器

os库、requests库、pyquery库

2.1 安装库

2.1.1 cmd安装方式

打开cmd控制台

打开cam控制台

在控制台分别输入以下代码:

pip install requests

pip install pyquery

安装requests库

安装pyquery库

其中,os库为Python3内置库,不需要安装,至此,准备工作完成。

2.1.2 pycharm安装方式

打开pycharm>file>settings

打开设置

搜索库

安装库

将所需库安装即可,至此,准备工作完成。

3. 开始编程

3.1 主函数

目标

然后,观察规律:

第一页URL为http://www.umei.cc/p/gaoqing/cn

点下一页URL为http://www.umei.cc/p/gaoqing/cn/2.htm

再点下一页URL为http://www.umei.cc/p/gaoqing/cn/3.htm

观察规律

。。。。。。

然后再点击第一页发现网址变成了http://www.umei.cc/p/gaoqing/cn/1.htm

所以,我们就得到了屠龙技。代码如下:

# 控制代码运行过程,在文件作为脚本时才会被执行,而import到其他脚本中是不会被执行的

if __name__ == '__main__':

z = 1

url = 'http://www.umei.cc/p/gaoqing/cn/' # 初始目标URL

for i in range(z, z+1): # z+1可以换成z+n (n=1,2,3......)

url1 = url+str(i)+'.htm'

print(url1)

get_url1(url1) # 调用get_url1函数获取图片

3.2 编写图片抓取函数get_url1

然后我们还有找规律,我们点开第一页第一套图

目标

链接

为了简便,我们就爬取每页各个套图里的第一张图片,当然也可以爬取更多的图。我们可以发现各个套图里的第一张图片URL根本没有规律,所以,我们这是就要借助pyquery网页解析库啦。

我用的是谷歌浏览器,打开开发者工具,根据图片找到套图里第一张图片的链接,可以多找几张,你会发现他们好像有规律,我们只要搞到红框框里的链接就好啦。

开发者工具

链接

链接

所以函数get_url1代码如下

def get_url1(url):

# 模拟浏览器,不用改,几乎固定

headers = {

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) '

'AppleWebKit/537.36 (KHTML, like Gecko)'

' Chrome/58.0.3029.110 Safari/537.36'

}

urllib3.disable_warnings() # 预警作用

html = requests.get(url, headers=headers, verify=False).text # 获得elements里的所有代码

doc = pq(html) # 解析代码

a = doc('.TypeList .TypeBigPics')

for item in a.items():

b = item.attr('href') # 获得herf里的所有代码

# print(b,'\n','\n')

html2 = requests.get(b,headers = headers,verify = False).text

doc2 = pq(html2)

c = doc2('.ImageBody img') # 获得ImageBody img里的代码

for item2 in c.items():

d = item2.attr('src') # 获得src里的链接

print(d)

# 保存文件

root = "D://pics22223//" # 根目录

path=root+d.split('/')[-1]

# 根目录加上url中以反斜杠分割的最后一部分,即可以以图片原来的名字存储在本地

try:

if not os.path.exists(root): # 判断当前根目录是否存在

os.mkdir(root) # 创建根目录

if not os.path.exists(path): # 判断文件是否存在

r=requests.get(d)

with open(path,'wb')as f:

f.write(r.content)

f.close()

print("文件保存成功",'\n','\n')

else:

print("文件已存在")

except:

print("爬取失败")

4. 完整代码

# -*- coding: utf-8 -*-

"""

Created on Sun Dec 30 15:38:25 2018

@author: 球球

"""

import requests

import os

from requests.packages import urllib3

from pyquery import PyQuery as pq

def get_url1(url):

headers = {

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) '

'AppleWebKit/537.36 (KHTML, like Gecko)'

' Chrome/58.0.3029.110 Safari/537.36'

}

urllib3.disable_warnings()

html = requests.get(url, headers=headers, verify=False).text

doc = pq(html)

a = doc('.TypeList .TypeBigPics')

for item in a.items():

b = item.attr('href')

# print(b,'\n','\n')

html2 = requests.get(b,headers = headers,verify = False).text

doc2 = pq(html2)

c = doc2('.ImageBody img')

for item2 in c.items():

d = item2.attr('src')

print(d)

root = "D://pics22223//" # 根目录

path=root+d.split('/')[-1]

# 根目录加上url中以反斜杠分割的最后一部分,即可以以图片原来的名字存储在本地

try:

if not os.path.exists(root): # 判断当前根目录是否存在

os.mkdir(root) # 创建根目录

if not os.path.exists(path): # 判断文件是否存在

r=requests.get(d)

with open(path,'wb')as f:

f.write(r.content)

f.close()

print("文件保存成功",'\n','\n')

else:

print("文件已存在")

except:

print("爬取失败")

if __name__ == '__main__':

z = 1

url = 'http://www.umei.cc/p/gaoqing/cn/'

for i in range(z, z+1):

url1 = url+str(i)+'.htm'

print(url1)

get_url1(url1)

python 爬虫 美女_Python3爬取美女妹子图片相关推荐

  1. Python爬虫实战之爬取网站全部图片(一)

    Python爬虫实战之爬取网站全部图片(二) Python爬虫实战之通过ajax获得图片地址实现全站图片下载(三) 一.获得图片地址 和 图片名称 1.进入网址之后 按F12  打开开发人员工具点击e ...

  2. python爬虫实践之爬取美女图片

    目录 概述 准备 所需模块 涉及知识点 运行效果 完成爬虫 1. 分析网页 2. 爬虫代码 概述 爬取妹子图网的美女图片. 准备 所需模块 time requests lxml 涉及知识点 pytho ...

  3. [python爬虫] Selenium定向爬取海量精美图片及搜索引擎杂谈

    我自认为这是自己写过博客中一篇比较优秀的文章,同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的.首先通过这篇文章,你能学到以下几点:         1.可以了解Python简单爬取图片的一些思路和方 ...

  4. Python爬虫:scrapy爬取斗鱼直播图片

    通过斗鱼给出的api,获取json文件,解析出图片地址,可以获取直播间的图片 斗鱼api接口: http://open.douyucdn.cn/api/RoomApi/live/{num} 比如: h ...

  5. 学习python爬虫经验分享--爬取洛克王国宠物图片

    写这个爬虫算是回忆一下童年吧 注:超简单的爬虫实例,想学python 爬虫的小伙伴可以参考参考.第一次写博客,还请多多包涵 一.环境准备 二.用到的库 三.每个库对应用到的方法 四.简单分析 五.代码 ...

  6. Python爬虫实战之爬取网站全部图片(二)

    通过python 来爬取网站内所有的图片到本地 第三篇是动态获取参数构造图片地址实现下载图片  传送门:https://blog.csdn.net/qq_33958297/article/detail ...

  7. 【Python爬虫】:爬取干货集中营上的全部美女妹子(翻页处理)

    一.确定爬取思路 今天突发奇想,能不能使用python爬虫来爬取一些妹子图片呢,于是摩拳擦掌开始干了起来.首先打开python基础教程网页htttps://gank.io 当中的妹子专栏, 发现里面全 ...

  8. [day1]python网络爬虫实战:爬取美女写真图片

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...

  9. [day2]python网络爬虫实战:爬取美女写真图片(增强版)

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...

  10. Python【爬虫实战】爬取美女壁纸资源

    Python[爬虫实战]爬取美女壁纸资源 一:首先选取一个网站,这里我们选择了一个壁纸网站 二:进入网站,我们可以看到很多图片放在一页里 三:按下F12开发者工具,点击Elments查看网页的代码 四 ...

最新文章

  1. TypeKit ,use online fonts
  2. 刑啊!智能音箱让10岁女童摸电门,内容来自网络却不审核,这锅该谁来背?...
  3. 第8集析构函数中抛出的异常
  4. 谈谈Angular关于$watch,$apply 以及 $digest的工作原理
  5. mysql“Access denied for user 'root'@'localhost'”问题的解决
  6. 华为鸿蒙消费者,王成录谈鸿蒙挑战和华为消费者业务崛起
  7. 宽字符编码和解码通用类[CodeWidthChartUtility]
  8. arcgis js 地图打印_Arcgis在国土空间规划编制中的应用
  9. ajax csrf php,JQueqy Ajax的使用(POST\GET请求 csrf_token)
  10. linux 进程占用cpu查看工具,Linux下如何查看某一进程的CPU占用率
  11. 邮件服务器篇:杀毒引擎选择论据
  12. 人工智能(第一章 绪论)
  13. 恢复 火狐浏览器书签、插件、密码等
  14. 高效记忆/形象记忆(05)110数字编码表 0-9
  15. RMS (Rights Management Services)基于SDK2.1的二次开发环境搭建
  16. luogu P1653 猴子
  17. 3d效果图设计师接私单的渠道介绍和避坑指南
  18. [Unity3D]手机3D游戏开发:FPS射击游戏中瞄准镜CrossHair的制作
  19. C语言程序设计-鸡兔同笼问题
  20. 思考(七十四):一个游戏后端分布式事务架构介绍

热门文章

  1. 朗文3000词汇表带音标_朗文少儿英语2A-Unit3知识归纳(单词含音标版
  2. 当我们在浏览器地址栏中输入一个网址会发生什么
  3. 酒店ETL管理解决方案
  4. 用WPF做报表控件(一)
  5. datavideo切换台说明书_SE-700切换台-应用篇
  6. 最小二乘支持向量机(基于MATLAB)
  7. 对称密钥交换协议——实现在不安全的信道安全地传输密钥
  8. java中字符串逆序_[Java教程]一行代码实现字符串逆序输出
  9. C++ primer 5th 习题之10.13
  10. 超1200张!《Nature》高清论文插图集下载