很久之前写的爬虫,一直没有放出来,这次放出来,单线程爬取,又有延时,所以有点慢。不过这也不耽误爬取了一个人的2万多张写真套图,因为这个人的很好看,哈哈哈。。。不过后来又全都删了,因为又发现了更好的网站。

爬取美女的个人写真套图,图片很养眼。。。都懂的。具体的步骤就不讲了,注释写的很详细。网站地址因为审核的原因也没有办法放。要是有人知道这个网址,在本文的网站地址处加上网址就可以养眼了。

最重要的一点:注意身体。。。

"""
requests库请求目标网址xpath提取网页的图片地址os模块建立文件夹存储图片面向函数编程个人写真套图爬取"""
# 导入第三方库
import requests
from lxml import etree
import time
import os
from fake_useragent import UserAgent# 定义随机的UserAgent
headers = {'User-Agent': UserAgent().random, 'accept-language': 'zh-CN,zh;q=0.9'}# 定义得到首页的html的函数
def get_html(url):many_list_detail = []time.sleep(0.1)# 如果用.text()则出现乱码的情况,所以采用utf-8方式解码html = requests.get(url, headers=headers).content.decode('utf-8')many_list_detail.append(url)many_list_detail.append(html)return many_list_detail# 定义解析详情页的函数
def detail_save_pages(many_list):# 新建空列表detail = []e = etree.HTML(many_list[1])# 解析每一层图片的总页数nums = e.xpath('//div[@class="imageset"]/span[@class="imageset-sum"]/text()')# 遍历循环每一页,总数为每一层图片的总页数page_nums = int(nums[0].split(' ')[1]) + 1for page in range(1, page_nums):# 由于每层图片的第一页地址与以后的地址不一样,需要单独处理。if page == 1:# 解析html文档e = etree.HTML(many_list[1])# xpath提取图片地址image = e.xpath('//div[@class="img_box"]/a/img/@src')# 将图片地址添加到列表中detail.extend(image)else:# 由于是请求每一层的全部图片,每一层的url各不相同,需要构造url,以首页url为基准,先以'_'号将url分割为两部分,中间加上'_'# 第二部分取以'_'分割的第二部分并再以'.'分割,加上'_' 加上page 加上.htmlurls = str(many_list[0]).split('_')[0] + '_' + str(many_list[0]).split('_')[1].split('.')[0] + '_' + str(page) + '.html'# 请求构造的urltime.sleep(0.1)html = requests.get(url=urls, headers=headers).content.decode('utf-8')e = etree.HTML(html)# 提取图片的地址image = e.xpath('//div[@class="img_box"]/a/img/@src')detail.extend(image)# 遍历循环列表,添加到列表中for page_list, det in zip(range(1, page_nums), detail):# 请求每一张图片的urltime.sleep(0.05)r = requests.get(url=det, headers=headers)# 定义每一张图片的名字file_name = det.split('/')[-1]# 写入图片文件with open(temp + '/' + file_name, 'wb') as f:print("正在下载:" + det + " 第" + str(page_list) + "张")f.write(r.content)# 定义主函数def main():# 创建文件夹if not os.path.exists(temp):os.mkdir(temp)# 首页的url地址url = '图片网址'many_html = get_html(url)detail_save_pages(many_html)if __name__ == '__main__':temp = input("请输入需要保存的文件名称:\n")print("正在解析,请稍等...")main()

养眼神器,爬取美女网站个人的写真套图相关推荐

  1. python 爬取_我用Python爬取了妹子网100G的套图

    前言 最近在做监控相关的配套设施,发现很多脚本都是基于Python的.很早之前就听说其大名,人生苦短,我学Python,这并非一句戏言.随着人工智能.机器学习.深度学习的崛起,目前市面上大部分的人工智 ...

  2. 我用Python爬取了妹子网200G的套图

    前言 最近在做监控相关的配套设施,发现很多脚本都是基于Python的.很早之前就听说其大名,人生苦短,我学Python,这并非一句戏言.随着人工智能.机器学习.深度学习的崛起,目前市面上大部分的人工智 ...

  3. 我用Python爬取了妹子网100G的套图

    前言 最近在做监控相关的配套设施,发现很多脚本都是基于Python的.很早之前就听说其大名,人生苦短,我学Python,这并非一句戏言.随着人工智能.机器学习.深度学习的崛起,目前市面上大部分的人工智 ...

  4. Jsoup学习 JAVA爬虫爬取美女网站 JAVA爬虫爬取美图网站 爬虫

    最近对爬虫起了兴趣,但是网上都说做爬虫最好得语言是py.但是我只会java,所以就想能不能用java实现一个爬虫,百度搜索发现,其实java也有很多优秀得开源爬虫框架,包括Gecco,webmagic ...

  5. Python百行代码轻松爬取了妹子网100G的套图,希望你网盘内存够用

    前言 最近在做监控相关的配套设施,发现很多脚本都是基于Python的.很早之前就听说其大名,人生苦短,我学Python,这并非一句戏言.随着人工智能.机器学习.深度学习的崛起,目前市面上大部分的人工智 ...

  6. Java爬虫之利用Jsoup+HttpClient爬取类叔叔不约匿名聊天网站的图片,未果——后爬取某网站美女图片案例

    博主最近学了一点爬虫的知识,闲着无聊,秉承学以致用的理念,于是突然想到何不挑战一下,爬取一些叔叔不约网站的图片,来巩固一下所学知识(#滑稽).说干就干,打开eclipse或idea,创建maven工程 ...

  7. 爬虫爬取二次元网站美女图片

    爬虫爬取二次元网站美女图片 前言 xpath解析 需求分析 代码编写 总代码 前言 本次需要爬取二次元网站cos板块下的图片 需要用到request模块与lxml模块,所以请提前安装好这两个模块,打开 ...

  8. 爬取美女图片保存本地与入MySQL库(宅男福利)

    本文详细记录如何爬取美女图片,并将图片下载保存在本地,同时将图片url进行入库.保存在本地肯定是为了没事能拿出来养养眼啊,那入库就是为了定位图片啊,要懂点技术的话,还能搬运搬运做个小图片网站,不为别的 ...

  9. python爬取小说网站资源_利用python的requests和BeautifulSoup库爬取小说网站内容

    1. 什么是Requests?html Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库.python 它比urlli ...

最新文章

  1. Mysql中natural join和inner join的区别
  2. 苹果已招聘两名梅赛德斯前工程师 其中一人曾在保时捷工作近6年
  3. poj 1723 中位数
  4. Android软硬整合设计与框架揭秘教程
  5. Celo计划推出一种与欧元挂钩的新稳定币
  6. [WC2007] 剪刀石头布
  7. AEAI Miscdp文件上传功能使用心得
  8. 信息学奥赛一本通知识集锦+往年真题
  9. linux netperf,Netperf 的使用与介绍
  10. twaver html5 2d demo,TWaver 2D+GIS+3D的试用和在线Demo
  11. mysql积分表和业务表_积分相关数据库表该如何设计?业务表和积分明细表该如何匹配上...
  12. 求出数组最大值的方法
  13. 读入一句话(一行文本),统计26个大写字母各自出现的次数。(java)
  14. TestNG跳过某个测试方法
  15. Duilib嵌入cef3,实现浏览器功能
  16. 【网站】如何做一个自己的视频网站
  17. git中staged 和 unstaged的区别
  18. UNI-APP安卓本地打包详细教程(保姆级)
  19. 手把手介绍Manjaro中添加Google输入法---亲身测试,成功安装
  20. C# 判断两张图片是否一致,极快速。

热门文章

  1. 进入大厂需要学习的python技能
  2. VS2012中解决方案资源管理器的图标含义
  3. 【Git】git代码统计分析工具-gitstats
  4. php点击事件下一页,点击上一页下一页信息没有更新
  5. 信号叠加提升信噪比(含证明)
  6. R语言使用file.choose()函数打开windows标准文件选择对话框
  7. 超10名房企老板受累官员落马 地产成了高危行业
  8. SoC-按键控制led
  9. 真彩色转256色算法
  10. 平面设计师美工面试试题集锦