爬取的目标网址:
http://www.zdqx.com/qingchun/index.html


话不多说,直接上代码:

import requests
import re,osheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36','referer': 'http://www.zdqx.com/pcbz/70270.html','cookie': 'Hm_lvt_303a32038183efa6d8efec90c0031b87=1581472898; Hm_lpvt_303a32038183efa6d8efec90c0031b87=1581472912'
}def get_urls(url,num_page):response = requests.get(url=url, headers=headers)response.encoding = response.apparent_encodingresult = re.findall('<div class="listbox">(.*?)</div>', response.text, re.S)urlsTitleList = re.findall('<a href="(.*?)" target="_blank" title="(.*?)">', str(result), re.S)pageNumList = re.findall('<em class="page_num">共(.*?)张</em>',str(result), re.S)for urlAndTitle,num in zip(urlsTitleList,pageNumList):url = 'http:'+urlAndTitle[0]title = urlAndTitle[1]num = int(num)for page in range(1,num+1):if page == 1:newUrl = urlelse:newUrl = url.replace('.html','_%s.html'%page)resp = requests.get(newUrl,headers=headers)resp.encoding = resp.apparent_encodingdiv_main = re.findall('<div class="main_center_img" style=" min-height: 745px;">(.*?)</div>',resp.text,re.S)url_alt = re.findall('<img src="(.*?)"', str(div_main), re.S) # 长度为3_url = 'http:'+url_alt[1]imgTitle = title+str(page)savedata(_url,imgTitle,num_page)def savedata(url,title,num_page):path = '小姐姐图片/第{}页'.format(num_page)if not os.path.exists(path):os.makedirs(path) #多级目录response = requests.get(url,headers=headers)response.encoding = response.apparent_encodingwith open(path + '/' + title + '.jpg',mode="wb") as f:f.write(response.content)print(title+' 保存成功!')f.close()def download_page(num_page):if num_page == 1:url = 'http://www.zdqx.com/qingchun/index.html'else:url = 'http://www.zdqx.com/qingchun/index_' + str(num_page) + '.html'get_urls(url, num_page)print('第' + str(num_page) + '页采集完毕!')def main_run():want_page = input("您需要爬取第几页?(共1-42页),输入'all'则爬取全部约10000张高清壁纸:\n")if (want_page == 'all'):for page in range(1, 41):download_page(page)try:num_page = int(want_page)except:print("您的输入不合法,只能输入纯数字或字符串'all',请重新输入")main_run()if(num_page<1 or num_page>42):print("您的输入不合法,页码数只能在1-42之间,请重新输入")main_run()else:download_page(num_page)if __name__ == '__main__':main_run()

对于多线程还不太熟悉,就没有用到多线程。

虽然爬取全部约10000张高清图太慢了,但是爬取一页的时间还是可以勉强接受的。

python爬取海量精美高清漂酿纯真可爱善良小姐姐壁纸(老司机福利)相关推荐

  1. python 爬取王者荣耀高清壁纸

    代码地址如下: http://www.demodashi.com/demo/13104.html 一.前言 打过王者的童鞋一般都会喜欢里边设计出来的英雄吧,特别想把王者荣耀的英雄的高清图片当成电脑桌面 ...

  2. python爬取某网站高清二次元图片 自动下载

    第一章 Python 爬取网站信息 文章目录 一,什么是爬虫? 二.使用步骤 1.引入库 2.伪装header 3.读取信息并过滤,写入文件 总结 前言 本文只做技术讨论,大家不要一直爬这个小网站,记 ...

  3. 还愁没壁纸?Python爬取5K分辨率高清桌面壁纸

    2019独角兽企业重金招聘Python工程师标准>>> 前言 相信大家都很需要哪些既好看又能符合自己当时的心情的高清壁纸,很多时候壁纸反应我们当时的心情,一张好的壁纸就一道靓丽的风景 ...

  4. Python爬虫实战| Python爬取英雄联盟高清壁纸

    先看一下最终爬取的效果,每个英雄的壁纸都被爬取下来了: "黑暗之女 安妮"的12张壁纸: 高清大图: 下面开始正式教学! 版本:Python 3.5 工具:Jupyter note ...

  5. python爬取王者荣耀高清图

    原理请看:Python?30行代码?爬取王者荣耀所有英雄皮肤图片?_易果啥笔的博客-CSDN博客 我稍微改了一下:因为王者这个herolist.json文件里的信息更新的不太及时,导致爬取出来的皮肤有 ...

  6. python爬取唯一图库高清壁纸

    文章目录 写在前面 标题非常可口 1:用到的包 2:定义主函数 3:获取图库的地址 4:创建图库路径并保存第一张 5:正则提取壁纸的URL特征 6:保存壁纸 完整代码 爬取结果 写在后面 写在前面 今 ...

  7. python爬取王者_python 爬取王者荣耀高清壁纸

    一.前言 打过王者的童鞋一般都会喜欢里边设计出来的英雄吧,特别想把王者荣耀的英雄的高清图片当成电脑桌面 预览一下桌面吧: 是不是看着这样的桌面也很带感,_ (学会这个技术,你可以爬取其他网站的类似图片 ...

  8. 【Python爬虫实战】爬取彼岸图库高清图片

    利用Python爬取彼岸图库高清图片 让你每天一张壁纸不重样,今天利用Python爬取 彼岸图库 http://pic.netbian.com/ 分析网页 通过首页可以看到要获取全站图片必须先抓取各个 ...

  9. python4k高清图片_第一次接触,尝试用python抓取国外4k高清图像数据,真方便

    计划了很久,终于还是利用在家的几个月时间,开始学习python编程. 作为一个学霸,我更愿意在实践中学习,实践出来的效果给我更多的信心和乐趣,于是,我花了大约一个月的时间,看了一本Python入门的相 ...

最新文章

  1. 如何理解soft target这一做法?
  2. elasticsearch查询
  3. Bag of Tricks for Efficient Text Classification(Fasttext)
  4. AngularDart4.0 指南- 显示数据
  5. 后端技术:Web安全常见漏洞和修复建议,值得收藏!
  6. java xml dom getelementbyid,DOM中常见的元素获取方式
  7. 爬虫神器Requests: 让 HTTP 服务人类
  8. php tire树,Immutable.js源码之List 类型的详细解析(附示例)
  9. ccs中如何插入字体
  10. html支持图片文字的控件_[小工具][爬虫]一键完整备份你的Csdn博客文章(支持Markdown,HTML,文中图片)...
  11. hive udf 分组取top1_Hive中UDF练习
  12. 初识 InnoDB存储引擎
  13. 引领数字医学高地,中山医院探索打造未来医院“新范式”
  14. 电子工程师常用的单位转换
  15. 接触式IC卡和非接触式IC卡有什么区别?
  16. 快速实现远程控制Android手机
  17. EnjoyToShare | 考研英语复试口语
  18. 树莓派控制4路5v继电器开关
  19. mysql安装 张宴_Linux_centos5 源码安装Nginx + mysql + apache + php的方法,主要依照的是张宴的一篇博文 - phpStudy...
  20. 咖说 | 「延展与重构」数字艺术的新可能

热门文章

  1. 隐马尔科夫模型(HMM)模型训练:Baum-Welch算法
  2. 提交 Merge Request 申请进行code review
  3. OpenGL-GLSL语言入门教程(1)
  4. HTTP、HTTPS
  5. 软件开发的过程中,这些文档你都用到了吗?
  6. 大炮打蚊子(已AC)
  7. 百度地图根据地理坐标转换经纬度
  8. Element表格之表头合并、行合并和列合并
  9. android 怎样删除sim卡中的联系人
  10. POJ1849 Two(树的直径)