美女图片的Python爬虫实例

==该爬虫面向成年人且有一定的自控能力（涉及部分性感图片，仅用于爬虫实例研究）==
前言
目标
思路
步骤
- 第一步：查看网页结构
- - F12大法
  - - 粗略获取网页
    - 对应网页结构
    - 细看图片信息
    - 对应网页结构
- 第二步：获取对应网页
- - 开发环境：
  - 网页信息
  - python获取：
  - - 第一步：获取网页
    - 第二步：解析网页
    - 第三步：获取首页封面图片
    - 至此，首页观看人数超500的封面图片已保存至对应目录下
- 第三步：获取写真专辑图片
- - 目的
  - 思路
  - - 第一步：获取套图所在网页链接：
    - 第二步：分析写真套图对应网页：
    - 第三步：写真套图对应网页信息：
  - 代码实现
  - - 前面部分类似
    - 后面进行循环获取
    - 至此，首页观看人数超500的套图已保存至对应目录下
- 第四步：获取全站写真专辑图片
- - 问题
  - 目的
  - 思路
  - 代码实现
  - - 第一步：获取==https://www.xrmn5.com/XiuRen/== 的所有页数
    - 第二步：在PageNum中进行循环获取图片即可
结果

该爬虫面向成年人且有一定的自控能力（涉及部分性感图片，仅用于爬虫实例研究）

前言

最近写论文写的心态炸了，感觉得找个乐呵乐呵的事情放松一下。逛网页看到了个捋图片的软件：[秀人网]美图下载1.1 版 — By、笑孤城
奈何试用效果不佳，准备自己动手，丰衣足食（主要是里面的妹子，要啥有啥）

饱暖思淫欲，动手方足食

目标

通过爬虫，得到 [秀人网] 里面的小姐姐并给她们一个温暖的家

衣沾不足惜，但使愿无违

思路

百度秀人网，得到网址：https://www.xrmn5.com/XiuRen/，去首页：https://www.xrmn5.com/
F12看网页结构，通过正则表达式对链接和结构进行解析并获取
Pycharm+Python 3.7，要啥有啥
成功获取，大功告成

乱花渐欲迷人眼

步骤

第一步：查看网页结构

F12大法

粗略获取网页

通过对首页进行 “检查” ，我们得到了这样的信息：

<a href="/XiuRen/2021/20219023.html" alt="[XiuRen秀人网]No.3825_女神芝芝Booty江浙沪旅拍撩轻薄吊裙露超薄肉丝秀翘臀诱惑写真81P" title="[XiuRen秀人网]No.3825_女神芝芝Booty江浙沪旅拍撩轻薄吊裙露超薄肉丝秀翘臀诱惑写真81P"><img src="/UploadFile/pic/9023.jpg" style="opacity:1;display:inline;">
<div class="postlist-imagenum"><span>芝芝</span></div></a>

再通过鼠标点击 <img src="/UploadFile/pic/9023.jpg"> 我们可以得到这样的信息：

这两个图表示啥呢？

对应网页结构

网页URL（即首页网址）：https://www.xrmn5.com
首页重点——以上图小姐姐图片为例： src="/UploadFile/pic/9023.jpg"
图片对应网页地址：href="/XiuRen/2021/20219023.html"
图片对应标题：[XiuRen秀人网]No.3825_女神芝芝Booty江浙沪旅拍撩轻薄吊裙露超薄肉丝秀翘臀诱惑写真81P（少儿不宜）
图片对应人物：span>芝芝</span

细看图片信息

我们再仔细看看这张图，发现在标题下面还有时间和观看人数（貌似）

具体的网页代码如下

<div class="case_info" style="background-color: rgb(204, 232, 207);"><div class="meta-title">[XiuRen秀人网]No.3825_女神芝芝Booty江浙沪旅拍撩轻薄吊裙露超薄肉丝秀翘臀诱惑写真81P</div>
<div class="meta-post"><i class="fa fa-clock-o"></i>2021.09.01<span class="cx_like"><i class="fa fa-eye"></i>101</span></div></div>

对应网页结构

从这里可以得出：

图片创建时间：/i>2021.09.01<span
图片观看次数：/i>101</span

第二步：获取对应网页

开发环境：

Windows 10 64位专业版 + PyCharm + Python3.7 +

import os
import time
import requests
import re

其中：

os 用于路径获取
time 用于延时
requests 用于获取网页信息
re 用于解析

网页信息

从第一步：查看网页结构中可以知道：

首页图片链接地址为：首页链接+src中的链接，即：https://www.xrmn5.com/UploadFile/pic/9023.jpg (其实具体网页为：https://pic.xrmn5.com/Uploadfile/pic/9023.jpg ，但上面链接可用）
图片对应专辑名称为：[XiuRen秀人网]No.3825_女神芝芝Booty江浙沪旅拍撩轻薄吊裙露超薄肉丝秀翘臀诱惑写真81P
图片对应专辑网址为：首页链接+href中的链接，即：https://www.xrmn5.com/XiuRen/2021/20219023.html
图片对应人物：芝芝
图片创建时间：2021.09.01

python获取：

第一步：获取网页

通过 requests.get 我们可以获取到网页，由于有中文，进行 ‘utf-8’编码，最后转text进行展示（headers 内的是通过F12获取的当前网页headers信息）,至此，首页信息获取至 Get_html 中

'''
第一步：请求网页
'''
import requests
# 头标签
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36 Edg/92.0.902.84'
}Get_url = requests.get('https://www.xrmn5.com/',headers=headers)
Get_url.encoding = 'utf-8'
# print(Get_url.text)
# print(Get_url.request.headers)
Get_html = Get_url.text

第二步：解析网页

最开始用的是re.findall（规则，数据）的方式，然后感觉太麻烦了，换成re.compile(规则,re.S).findall(数据)
重点是规则部分，urls 在这里是获取图片对应的专辑网页信息（即href中的链接）、标题信息和图片自身路径信息
inforName这里是获取人物信息和标题信息
likeNum这里是获取专辑对应的创建时间和观看人数
至此，相关信息已全部获取

'''
第二步：解析网页
'''import re
# 正则表达式对应的为：
# (.*?):获取（）内的所有
# \"(.*?)\" 用于匹配网页
# re.findall 用于获取（）内的数据并每存为元组
urls = re.findall('<li class="i_list list_n2"><a  href=\"(.*?)\" alt=(.*?) title=.*?><img src=\"(.*?)\"',Get_html)
patren1 = '<div class="postlist-imagenum"><span>(.*?)</span></div></a><div class="case_info"><div class="meta-title">\[.*?\](.*?)</a></div>'
patren2 = '<div class="meta-post"><i class="fa fa-clock-o"></i>(.*?)<span class="cx_like"><i class="fa fa-eye"></i>(.*?)</span>'
inforName = re.compile(patren1,re.S).findall(Get_html)
likeNum = re.compile(patren2,re.S).findall(Get_html)

第三步：获取首页封面图片

首先是指定图片存储目录：(这里是我自行设置的）
dir = r"D:/Let'sFunning/Picture/PythonGet/"
然后我做了个判断，观看人数超过500的写真专辑我才获取封面图片，将它保存在
dir 下的人名下的时间名下的专辑名文件夹中
os.makedirs(）用于创建文件夹
urls[i][2].split(’/’)[-1] 这里是把图片对应的路径如：/UploadFile/pic/9023.jpg 最后一截，即 9023.jpg 作为图片的名称进行保存
最后把图片路径与网页一拼接，就是图片的url，通过 requests.get() 直接获取后写入即可

'''
第三步：存储封面
'''
import os
import timedir = r"D:/Let'sFunning/Picture/PythonGet/"
url = "https://pic.xrmn5.com"
# 创建目录：人名+时间+专辑名
num = len(likeNum)
for i in range(num):if (int(likeNum[i][1]) > 500):getImgDir=dir+str(inforName[i][0])+'/'+str(likeNum[i][0])+'/'+str(inforName[i][1]+'/')# 创建对应目录if not os.path.exists(getImgDir):os.makedirs(getImgDir)imgUrl = url+urls[i][2]imgName = getImgDir+urls[i][2].split('/')[-1]print(imgName)time.sleep(1)# 获取封面图片Get_Img = requests.get(imgUrl, headers=headers)with open(imgName,'wb') as f:f.write(Get_Img.content)# 进入具体网页

至此，首页观看人数超500的封面图片已保存至对应目录下

第三步：获取写真专辑图片

通过第二步：获取对应网页，我们成功获取了首页的小姐姐图片，但是这些并不是爬虫，我们只在首页上爬了几张图片而已，我们应该深入到内部，去获取完整的写真图片。

目的

获取观看人数超500的写真套图，而不只是封面

思路

第一步：获取套图所在网页链接：

即：第二步：获取对应网页的网页信息

图片对应专辑网址为：首页链接+href中的链接，即：https://www.xrmn5.com/XiuRen/2021/20219023.html

第二步：分析写真套图对应网页：

同样的F12，我们可以知道，这一页一共有三张图片：

其图片对应代码如下：

<p style="text-align: center"><img onload="size(this)" alt="Xrmn.Top_[XiuRen秀人网]No.3825_女神芝芝Booty江浙沪旅拍撩轻薄吊裙露超薄肉丝秀翘臀诱惑写真81P" title="Xrmn.Top_[XiuRen秀人网]No.3825_女神芝芝Booty江浙沪旅拍撩轻薄吊裙露超薄肉丝秀翘臀诱惑写真81P" src="/uploadfile/202109/1/47201045101.jpg"><br>
<br>
<img onload="size(this)" alt="Xrmn.Top_[XiuRen秀人网]No.3825_女神芝芝Booty江浙沪旅拍撩轻薄吊裙露超薄肉丝秀翘臀诱惑写真81P" title="Xrmn.Top_[XiuRen秀人网]No.3825_女神芝芝Booty江浙沪旅拍撩轻薄吊裙露超薄肉丝秀翘臀诱惑写真81P" src="/uploadfile/202109/1/07201045631.jpg"><br>
<br>
<img onload="size(this)" alt="Xrmn.Top_[XiuRen秀人网]No.3825_女神芝芝Booty江浙沪旅拍撩轻薄吊裙露超薄肉丝秀翘臀诱惑写真81P" title="Xrmn.Top_[XiuRen秀人网]No.3825_女神芝芝Booty江浙沪旅拍撩轻薄吊裙露超薄肉丝秀翘臀诱惑写真81P" src="/uploadfile/202109/1/16201045377.jpg"><br>
<br>
</p>

对应页面代码如下：

<div class="page"><a href="/XiuRen/2021/20219023.html" class="current">1</a><a href="/XiuRen/2021/20219023_1.html">2</a><a href="/XiuRen/2021/20219023_2.html">3</a><a href="/XiuRen/2021/20219023_3.html">4</a><a href="/XiuRen/2021/20219023_4.html">5</a><a href="/XiuRen/2021/20219023_5.html">6</a><a href="/XiuRen/2021/20219023_6.html">7</a><a href="/XiuRen/2021/20219023_7.html">8</a><a href="/XiuRen/2021/20219023_8.html">9</a><a href="/XiuRen/2021/20219023_9.html">10</a><a href="/XiuRen/2021/20219023_10.html">11</a><a href="/XiuRen/2021/20219023_11.html">12</a><a href="/XiuRen/2021/20219023_12.html">13</a><a href="/XiuRen/2021/20219023_13.html">14</a><a href="/XiuRen/2021/20219023_14.html">15</a><a href="/XiuRen/2021/20219023_15.html">16</a><a href="/XiuRen/2021/20219023_16.html">17</a><a href="/XiuRen/2021/20219023_17.html">18</a><a href="/XiuRen/2021/20219023_18.html">19</a><a href="/XiuRen/2021/20219023_19.html">20</a><a href="/XiuRen/2021/20219023_20.html">21</a><a href="/XiuRen/2021/20219023_21.html">22</a><a href="/XiuRen/2021/20219023_22.html">23</a><a href="/XiuRen/2021/20219023_23.html">24</a><a href="/XiuRen/2021/20219023_24.html">25</a><a href="/XiuRen/2021/20219023_25.html">26</a><a href="/XiuRen/2021/20219023_26.html">27</a><a href="/XiuRen/2021/20219023_1.html">下页</a></div>

第三步：写真套图对应网页信息：

从上面两张图和对应代码，我们可以知道，

这个套图一共有27页 >27</a
每一页有三张图片 src="/uploadfile/202109/1/47201045101.jpg">、src="/uploadfile/202109/1/07201045631.jpg">、src="/uploadfile/202109/1/16201045377.jpg">
除此页外的剩下页对应链接均有：如href="/XiuRen/2021/20219023_2.html">

代码实现

思路很简单，在原有基础上深入一层至对应网页再循环获取即可

前面部分类似

前面部分类似，把首页扔了个变量：WebURL 然后添加了新的规则 patren3 用于获取套图的三张图片信息。


'''
第一步：请求网页
'''
import requestsheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36 Edg/92.0.902.84'
}WebURL = "https://www.xrmn5.com/"Get_url = requests.get(WebURL,headers=headers)
# print(Get_url.text)
# print(Get_url.request.headers)
Get_html = Get_url.text'''
第二步：解析网页
'''import re
# 正则表达式对应的为：
# (.*?):获取（）内的所有
# \"(.*?)\" 用于匹配网页
# re.findall 用于获取（）内的数据并每存为元组
urls = re.findall('<li class="i_list list_n2"><a  href=\"(.*?)\" alt=(.*?) title=.*?><img src=\"(.*?)\"',Get_html)
patren1 = '<div class="postlist-imagenum"><span>(.*?)</span></div></a><div class="case_info"><div class="meta-title">\[.*?\](.*?)</a></div>'
patren2 = '<div class="meta-post"><i class="fa fa-clock-o"></i>(.*?)<span class="cx_like"><i class="fa fa-eye"></i>(.*?)</span>'
inforName = re.compile(patren1,re.S).findall(Get_html)
likeNum = re.compile(patren2,re.S).findall(Get_html)# 针对套图所在网页的图片链接信息，添加新的解析规则
# <img οnlοad="size(this)" alt=.*? title=.*? src="/uploadfile/202109/1/07201045631.jpg" />
patren3 = '<img οnlοad=.*? alt=.*? title=.*? src=\"(.*?)\" />''''
第三步：进一步解析网页
'''
'''
第三步：存储封面
'''
import os
import timedir = r"D:/Let'sFunning/Picture/PythonGet/"
url = "https://pic.xrmn5.com"

后面进行循环获取

这里主要思路如下：

进入具体网页中，即再次 requests.get（）
解析此时获取的网页，将套图对应的所有页面路径存入 AllPage 中（注意我正则表达式存在一点问题，把最后一个链接：即 a href="/XiuRen/2021/20219023_1.html">下页</a 这个也获取到了，所以做了个break跳出，导致套图的最后一页图片是无法获取到的，即最终会少3张（if放for循环后面就行，懒得改了）
然后就对每一页的图片进行循环获取，就是把每一页的图片链接扔给==GetPageImg ，再进行requests.get（）==保存完事了


# 创建目录：人名+时间+专辑名
num = len(likeNum)
for i in range(num):if (int(likeNum[i][1]) > 500):getImgDir=dir+str(inforName[i][0])+'/'+str(likeNum[i][0])+'/'+str(inforName[i][1]+'/')# 创建对应目录if not os.path.exists(getImgDir):os.makedirs(getImgDir)imgUrl = url+urls[i][2]imgName = getImgDir+urls[i][2].split('/')[-1]print(imgName)time.sleep(1)# 获取封面图片Get_Img = requests.get(imgUrl, headers=headers)with open(imgName,'wb') as f:f.write(Get_Img.content)# 进入具体网页IntoPageUrl = WebURL + urls[i][0]Get_InPage = requests.get(IntoPageUrl, headers=headers)Get_InPage.encoding = 'utf-8'Get_InPagehtml = Get_InPage.textAllPage = re.findall('</a><a href=\"(.*?)\">([0-9]*)', Get_InPagehtml)for k in range(len(AllPage)):if k == len(AllPage) - 1:breakelse:imgPageUrl = re.compile(patren3, re.S).findall(Get_InPagehtml)PageNum = len(imgPageUrl)# 循环获取并保存图片for l in range(PageNum):GetPageImg = url+imgPageUrl[l]print(GetPageImg)PageImgeName = getImgDir+imgPageUrl[l].split('/')[-1]print(PageImgeName)time.sleep(1)# 获取内部图片Get_PImg = requests.get(GetPageImg, headers=headers)with open(PageImgeName, 'wb') as f:f.write(Get_PImg.content)# 继续下一页获取图片NewPaperUrl = WebURL + AllPage[k][0]time.sleep(1)Get_InPage = requests.get(NewPaperUrl, headers=headers)Get_InPage.encoding = 'utf-8'Get_InPagehtml = Get_InPage.text

至此，首页观看人数超500的套图已保存至对应目录下

第四步：获取全站写真专辑图片

问题

OK，现在我们是已经获取到所有的套图了，但是我们发现，我们只是获取到首页的观看人数超500的套图，但实际上的套图远不止一页，因此我们需要找到网站对应的所有套图：
于是我们发现：如果我们进入网页为https://www.xrmn5.com/XiuRen/, 则可以看到有：128 页

这里才是我们要爬的对象。

目的

获取 https://www.xrmn5.com/XiuRen/ 中所有的图片

思路

思路类似，只不过在获取首页之前，先获取此网页的数据，然后在循环内进行获取即可

代码实现

第一步：获取https://www.xrmn5.com/XiuRen/ 的所有页数

具体来说，就是加了个规则patrenForPageNum, 再把当前页所能到达的数量获取出来：这里是匹配了个数字并返回
PageNum = "".join(list(filter(str.isdigit, temp)))
再进行格式拼接生成所有网页URL并保存到==GetAllPage ==中

import os
import timedir = r"D:/Let'sFunning/Picture/PythonGet/"
url = "https://pic.xrmn5.com"import requestsheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36 Edg/92.0.902.84'
}URL = "https://www.xrmn5.com/XiuRen/"
WebURL = "https://www.xrmn5.com/"
Get_url = requests.get(URL,headers=headers)
Get_url.encoding = 'utf-8'
Get_html = Get_url.text
print(Get_html)import re
patrenForPageNum = '</a><a href=\"(.*?)\">'
Get_PageNum = re.compile(patrenForPageNum,re.S).findall(Get_html)
temp = str(Get_PageNum[len(Get_PageNum)-1])
PageNum = "".join(list(filter(str.isdigit, temp)))
print(temp)
print(PageNum)# 获取所有网页，存入AllPage中
AllPageTemp = []
GetAllPage = ()
for i in range(int(PageNum)):if i > 0:AllPageTemp.append(WebURL+"/XiuRen/index"+str(i+1)+".html")
GetAllPage += tuple(AllPageTemp)

第二步：在PageNum中进行循环获取图片即可

这里其实也有点问题，就是第128页的数据是拿不到的，这里有点逻辑缺陷，但基本上这个网页 https://www.xrmn5.com/XiuRen/ 内的所有超过500观看的套图都能爬到

for pagenum in range(int(PageNum)):urls = re.findall('<li class="i_list list_n2"><a  href=\"(.*?)\" alt=(.*?) title=.*?><img class="waitpic" src=\"(.*?)\"', Get_html)patren1 = '<div class="postlist-imagenum"><span>(.*?)</span></div></a><div class="case_info"><div class="meta-title">\[.*?\](.*?)</a></div>'patren2 = '<div class="meta-post"><i class="fa fa-clock-o"></i>(.*?)<span class="cx_like"><i class="fa fa-eye"></i>(.*?)</span>'inforName = re.compile(patren1, re.S).findall(Get_html)likeNum = re.compile(patren2, re.S).findall(Get_html)print(urls)print(inforName)print(likeNum)num = len(likeNum)patren3 = '<img οnlοad=.*? alt=.*? title=.*? src=\"(.*?)\" />'for i in range(num):if (int(likeNum[i][1]) > 500):getImgDir = dir + str(inforName[i][0]) + '/' + str(likeNum[i][0]) + '/' + str(inforName[i][1] + '/')# 创建对应目录if not os.path.exists(getImgDir):os.makedirs(getImgDir)imgUrl = url + urls[i][2]imgName = getImgDir + urls[i][2].split('/')[-1]print(imgName)time.sleep(1)# 获取封面图片Get_Img = requests.get(imgUrl, headers=headers)with open(imgName, 'wb') as f:f.write(Get_Img.content)# 进入具体网页IntoPageUrl = WebURL + urls[i][0]Get_InPage = requests.get(IntoPageUrl, headers=headers)Get_InPage.encoding = 'utf-8'Get_InPagehtml = Get_InPage.textAllPage = re.findall('</a><a href=\"(.*?)\">([0-9]*)', Get_InPagehtml)for k in range(len(AllPage)):imgPageUrl = re.compile(patren3, re.S).findall(Get_InPagehtml)PageNum = len(imgPageUrl)# 循环获取并保存图片for l in range(PageNum):GetPageImg = url + imgPageUrl[l]print(GetPageImg)PageImgeName = getImgDir + imgPageUrl[l].split('/')[-1]print(PageImgeName)time.sleep(1)# 获取封面图片Get_PImg = requests.get(GetPageImg, headers=headers)with open(PageImgeName, 'wb') as f:f.write(Get_PImg.content)if k == len(AllPage) - 1:break# 继续下一页获取图片NewPaperUrl = WebURL + AllPage[k][0]time.sleep(1)Get_InPage = requests.get(NewPaperUrl, headers=headers)Get_InPage.encoding = 'utf-8'Get_InPagehtml = Get_InPage.textGet_url = requests.get(GetAllPage[pagenum],headers=headers)Get_url.encoding = 'utf-8'Get_html = Get_url.text

君欲善其事，必先利其器

结果

Hello World!

饱暖思淫欲之美女图片的Python爬虫实例（一）相关推荐

饱暖思淫欲之美女图片的Python爬虫实例（二）
美女图片的Python爬虫实例:面向服务器版 ==该爬虫面向成年人且有一定的自控能力(涉及部分性感图片,仅用于爬虫实例研究)== 前言初始教程存在问题解决思路目标实现步骤硬件配置服务器信 ...
python爬虫进阶案例,Python进阶(二十)-Python爬虫实例讲解
#Python进阶(二十)-Python爬虫实例讲解本篇博文主要讲解Python爬虫实例,重点包括爬虫技术架构,组成爬虫的关键模块:URL管理器.HTML下载器和HTML解析器. ##爬虫简单架构 ...
Python爬虫实例 wallhaven网站高清壁纸爬取。
文章目录 Python爬虫实例 wallhaven网站高清壁纸爬取一.数据请求 1.分析网页源码 2.全网页获取二.数据处理 1.提取原图所在网页链接 2.获取高清图片地址及title 三.下载图 ...
Python爬虫实例-爬取豆瓣电影Top250
这是本人Python爬虫实例的第二个实例,不过想来好像没有很大的难度所以适合当做新手入门的第一个爬虫.放在这里供大家参考. 本次实例爬取的网站为豆瓣电影Top250,使用到的第三方库有urllib,B ...
python爬虫实例之小说爬取器
今天和大家分享一个爬取盗版小说的实例. 如今的网络小说可谓是百家齐放各领风骚,玄幻科幻穿越修仙都市- 各种套路看得我是心潮澎湃,笔者曾经也蛮喜欢看小说的,以前经常是拿着一台诺基亚看到深夜,第二天带着黑 ...
python爬虫实例-记录一次简单的Python爬虫实例
本次的这篇文章主要是和大家分享了一篇关于记录一次简单的Python爬虫实例 ,有需要的小伙伴可以看一下. 主要流程分为: 爬取.整理.存储 1.其中用到几个包,包括 requests 用于向网站发送请 ...
Python爬虫实例--新浪热搜榜[xpath语法]
Python爬虫实例--新浪热搜榜[xpath语法] 1.基础环境配置: requests-->版本:2.12.4 lxml-->版本:3.7.2 2.网页分析很容易从html源码中看到 ...
Python爬虫实例--新浪热搜榜[正则表达式]
Python爬虫实例--新浪热搜榜[正则表达式] 1.基础环境配置: requests-->版本:2.12.4 re-->:Python自带,无需安装 2.网页分析很容易从html源码中 ...
Python爬虫实例（3）--BeautifulSoup的CSS选择器
Python爬虫实例紧接着上一讲的内容. 我们初步了解了bs4这个解析库. 但是bs4难道只有find,find_all了吗? 如果层次比较深,相似的元素比较多,和可能会写的比较长. 最主要的是很难 ...
python爬虫抓收费图片_简单的抓取淘宝图片的Python爬虫
写了一个抓taobao图片的爬虫,全是用if,for,while写的,比较简陋,入门作品. 从网页http://mm.taobao.com/json/request_top_list.htm?type ...

饱暖思淫欲之美女图片的Python爬虫实例（一）

美女图片的Python爬虫实例

该爬虫面向成年人且有一定的自控能力（涉及部分性感图片，仅用于爬虫实例研究）

前言

目标

思路

步骤

第一步：查看网页结构

F12大法

粗略获取网页

对应网页结构

细看图片信息

对应网页结构

第二步：获取对应网页

开发环境：

网页信息

python获取：

第一步：获取网页

第二步：解析网页

第三步：获取首页封面图片

至此，首页观看人数超500的封面图片已保存至对应目录下

第三步：获取写真专辑图片

目的

思路

第一步：获取套图所在网页链接：

第二步：分析写真套图对应网页：

第三步：写真套图对应网页信息：

代码实现

前面部分类似

后面进行循环获取

至此，首页观看人数超500的套图已保存至对应目录下

第四步：获取全站写真专辑图片

问题

目的

思路

代码实现

第一步：获取https://www.xrmn5.com/XiuRen/ 的所有页数

第二步：在PageNum中进行循环获取图片即可

结果

饱暖思淫欲之美女图片的Python爬虫实例（一）相关推荐

最新文章

热门文章