python爬取海量精美高清漂酿纯真可爱善良小姐姐壁纸(老司机福利)
爬取的目标网址:
http://www.zdqx.com/qingchun/index.html
话不多说,直接上代码:
import requests
import re,osheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36','referer': 'http://www.zdqx.com/pcbz/70270.html','cookie': 'Hm_lvt_303a32038183efa6d8efec90c0031b87=1581472898; Hm_lpvt_303a32038183efa6d8efec90c0031b87=1581472912'
}def get_urls(url,num_page):response = requests.get(url=url, headers=headers)response.encoding = response.apparent_encodingresult = re.findall('<div class="listbox">(.*?)</div>', response.text, re.S)urlsTitleList = re.findall('<a href="(.*?)" target="_blank" title="(.*?)">', str(result), re.S)pageNumList = re.findall('<em class="page_num">共(.*?)张</em>',str(result), re.S)for urlAndTitle,num in zip(urlsTitleList,pageNumList):url = 'http:'+urlAndTitle[0]title = urlAndTitle[1]num = int(num)for page in range(1,num+1):if page == 1:newUrl = urlelse:newUrl = url.replace('.html','_%s.html'%page)resp = requests.get(newUrl,headers=headers)resp.encoding = resp.apparent_encodingdiv_main = re.findall('<div class="main_center_img" style=" min-height: 745px;">(.*?)</div>',resp.text,re.S)url_alt = re.findall('<img src="(.*?)"', str(div_main), re.S) # 长度为3_url = 'http:'+url_alt[1]imgTitle = title+str(page)savedata(_url,imgTitle,num_page)def savedata(url,title,num_page):path = '小姐姐图片/第{}页'.format(num_page)if not os.path.exists(path):os.makedirs(path) #多级目录response = requests.get(url,headers=headers)response.encoding = response.apparent_encodingwith open(path + '/' + title + '.jpg',mode="wb") as f:f.write(response.content)print(title+' 保存成功!')f.close()def download_page(num_page):if num_page == 1:url = 'http://www.zdqx.com/qingchun/index.html'else:url = 'http://www.zdqx.com/qingchun/index_' + str(num_page) + '.html'get_urls(url, num_page)print('第' + str(num_page) + '页采集完毕!')def main_run():want_page = input("您需要爬取第几页?(共1-42页),输入'all'则爬取全部约10000张高清壁纸:\n")if (want_page == 'all'):for page in range(1, 41):download_page(page)try:num_page = int(want_page)except:print("您的输入不合法,只能输入纯数字或字符串'all',请重新输入")main_run()if(num_page<1 or num_page>42):print("您的输入不合法,页码数只能在1-42之间,请重新输入")main_run()else:download_page(num_page)if __name__ == '__main__':main_run()
对于多线程还不太熟悉,就没有用到多线程。
虽然爬取全部约10000张高清图太慢了,但是爬取一页的时间还是可以勉强接受的。
python爬取海量精美高清漂酿纯真可爱善良小姐姐壁纸(老司机福利)相关推荐
- python 爬取王者荣耀高清壁纸
代码地址如下: http://www.demodashi.com/demo/13104.html 一.前言 打过王者的童鞋一般都会喜欢里边设计出来的英雄吧,特别想把王者荣耀的英雄的高清图片当成电脑桌面 ...
- python爬取某网站高清二次元图片 自动下载
第一章 Python 爬取网站信息 文章目录 一,什么是爬虫? 二.使用步骤 1.引入库 2.伪装header 3.读取信息并过滤,写入文件 总结 前言 本文只做技术讨论,大家不要一直爬这个小网站,记 ...
- 还愁没壁纸?Python爬取5K分辨率高清桌面壁纸
2019独角兽企业重金招聘Python工程师标准>>> 前言 相信大家都很需要哪些既好看又能符合自己当时的心情的高清壁纸,很多时候壁纸反应我们当时的心情,一张好的壁纸就一道靓丽的风景 ...
- Python爬虫实战| Python爬取英雄联盟高清壁纸
先看一下最终爬取的效果,每个英雄的壁纸都被爬取下来了: "黑暗之女 安妮"的12张壁纸: 高清大图: 下面开始正式教学! 版本:Python 3.5 工具:Jupyter note ...
- python爬取王者荣耀高清图
原理请看:Python?30行代码?爬取王者荣耀所有英雄皮肤图片?_易果啥笔的博客-CSDN博客 我稍微改了一下:因为王者这个herolist.json文件里的信息更新的不太及时,导致爬取出来的皮肤有 ...
- python爬取唯一图库高清壁纸
文章目录 写在前面 标题非常可口 1:用到的包 2:定义主函数 3:获取图库的地址 4:创建图库路径并保存第一张 5:正则提取壁纸的URL特征 6:保存壁纸 完整代码 爬取结果 写在后面 写在前面 今 ...
- python爬取王者_python 爬取王者荣耀高清壁纸
一.前言 打过王者的童鞋一般都会喜欢里边设计出来的英雄吧,特别想把王者荣耀的英雄的高清图片当成电脑桌面 预览一下桌面吧: 是不是看着这样的桌面也很带感,_ (学会这个技术,你可以爬取其他网站的类似图片 ...
- 【Python爬虫实战】爬取彼岸图库高清图片
利用Python爬取彼岸图库高清图片 让你每天一张壁纸不重样,今天利用Python爬取 彼岸图库 http://pic.netbian.com/ 分析网页 通过首页可以看到要获取全站图片必须先抓取各个 ...
- python4k高清图片_第一次接触,尝试用python抓取国外4k高清图像数据,真方便
计划了很久,终于还是利用在家的几个月时间,开始学习python编程. 作为一个学霸,我更愿意在实践中学习,实践出来的效果给我更多的信心和乐趣,于是,我花了大约一个月的时间,看了一本Python入门的相 ...
最新文章
- 如何理解soft target这一做法?
- elasticsearch查询
- Bag of Tricks for Efficient Text Classification(Fasttext)
- AngularDart4.0 指南- 显示数据
- 后端技术:Web安全常见漏洞和修复建议,值得收藏!
- java xml dom getelementbyid,DOM中常见的元素获取方式
- 爬虫神器Requests: 让 HTTP 服务人类
- php tire树,Immutable.js源码之List 类型的详细解析(附示例)
- ccs中如何插入字体
- html支持图片文字的控件_[小工具][爬虫]一键完整备份你的Csdn博客文章(支持Markdown,HTML,文中图片)...
- hive udf 分组取top1_Hive中UDF练习
- 初识 InnoDB存储引擎
- 引领数字医学高地,中山医院探索打造未来医院“新范式”
- 电子工程师常用的单位转换
- 接触式IC卡和非接触式IC卡有什么区别?
- 快速实现远程控制Android手机
- EnjoyToShare | 考研英语复试口语
- 树莓派控制4路5v继电器开关
- mysql安装 张宴_Linux_centos5 源码安装Nginx + mysql + apache + php的方法,主要依照的是张宴的一篇博文 - phpStudy...
- 咖说 | 「延展与重构」数字艺术的新可能