python定向爬取wallhaven壁纸
首先,大神自觉绕道。。。。
以下正文
最近刚学python,突然想做个爬取壁纸的小demo
我这里爬取的是wallpaper上的一些图片,网址如下
https://alpha.wallhaven.cc/
进入wallpaper后我们随机点击一张图片
查看多次后很容易就联想到末尾的数字和图片名有关
接下来查看一下源码
通过查看多个图片,发现这些图片基本都以jpg和png为后缀,
于是用正则匹配pattern=r’//wallpapers.+?(jpg|png)’
(很烂的正则。。。我知道)
接下来就可以直接用一个for循环遍历图片所在的网页
并将其存储下来啦
程序运行效果如下:
完整代码如下:
import requests
import re
import os
def getImg(n):url='https://alpha.wallhaven.cc/wallpaper/' #图片对应的网站pattern=r'//wallpaper.+?(jpg|png)' #匹配图片的正则path='D:/Mypicture' #图片存储路径for i in range(n):r=requests.get(url+str(i+1))r.encoding=r.apparent_encodingmattch=re.search(pattern,r.text)if mattch:img=requests.get("https:"+mattch.group(0))if(not os.path.exists(path)): #保存图片的路径不存在则创建os.mkdir(path)if(img.url.endswith('.jpg')): #不同格式的图片with open('D:/Mypicture/t'+str(i+1)+'.jpg','wb') as f:f.write(img.content) #将图片保存到本地f.close() elif (img.url.endswith('.png')):with open('D:/Mypicture/t'+str(i+1)+'.png','wb') as f:f.write(img.content)f.close()else:print('爬取失败,图片后缀为:'+img.url[-4:])print('第'+str(i+1)+'次爬取\t成功!')else:print("第{}次爬取\t失败!".format(i+1))def main():getImg(20) #这里仅爬取20张图片
main()
本人纯属新手
程序可能不是很完美,但希望对您有帮助,有不足之处也欢迎指出,谢谢各位
python定向爬取wallhaven壁纸相关推荐
- Python爬虫-爬取wallhaven壁纸
Python爬虫-爬取wallhaven壁纸 前言 可行性分析 功能介绍 效果展示 基本思路 1.获取每页(1页24张)壁纸的url 2.获取每张壁纸缩略图的url 3.获取壁纸原图下载的url 4. ...
- python随机爬取wallhaven壁纸url(获取随机图片url)
§01 代码清单 class get_random_wallhaven(object):def __init__(self, url = 'https://wallhaven.cc/random'): ...
- Python爬取wallhaven壁纸 2023.1.31
Python爬取wallhaven壁纸 壁纸页面 前言 源码 壁纸页面 前言 学习中,未加多线程,由于网站.图片大小等因素导致下载缓慢 望各位大神提出建议并加以修善 网站主页及其爬取页如下,可自行修改 ...
- 利用爬虫爬取wallhaven壁纸
利用爬虫爬取wallhaven壁纸 '''解析网页''' headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Apple ...
- Python爬虫——爬取Bing壁纸
个人作为获取壁纸的小脚本 所以添加了random模块,壁纸以日期命名,每天随机领取一张新壁纸 使用requests库爬取,re正则提取数据 使用PIL库 将下载的壁纸自动展示 # -*- coding ...
- 用python爬虫爬取网页壁纸图片(彼岸桌面网唯美图片)
参考文章:https://www.cnblogs.com/franklv/p/6829387.html 今天想给我的电脑里面多加点壁纸,但是嫌弃一个个保存太慢,于是想着写个爬虫直接批量爬取,因为爬虫只 ...
- python唯美壁纸_用python爬虫爬取网页壁纸图片(彼岸桌面网唯美图片)
参考文章:https://www..com/franklv/p/6829387.html 今天想给我的电脑里面多加点壁纸,但是嫌弃一个个保存太慢,于是想着写个爬虫直接批量爬取,因为爬虫只是很久之前学过 ...
- python定向爬取淘宝中商品的名称和价格
一.思路: (1)目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格 (2)理解: 淘宝的搜索接口 翻页的处理 (3)技术路线:requests库.re库 二.代码实现: 说明:本文爬取的是淘宝中 ...
- python爬虫爬取网页壁纸图片(《底特律:变人》)
参考文章:https://www.cnblogs.com/franklv/p/6829387.html 爬虫爬取网址:http://www.gamersky.com/news/201804/10396 ...
最新文章
- jooq_jOOQ与Hibernate:何时选择哪个
- CheckBox as Image use button
- C语言——选择法排序_数组
- 纯数学教程 Page 325 例LXVIII (12)
- matlab层次分析法代码_基于主成分分析法和层次分析法的工程项目经理胜任力评价研究...
- win10专业版 命令行窗口运行“wsdl2java”命令,提示系统找不到指定路径
- 2021-08-08在ubuntu上部署nideshop
- MTK如何烧录IMEI码(俗称串号)
- 公司倒闭 1 年了,而我当年的项目上了 GitHub 热榜
- CSS backdrop-filter 和filter两种高斯模糊的区别
- 按当前位置与其它位置远近排序,按经纬度计算
- 台式计算机usb口不识别鼠标,如何解决插入鼠标提示无法识别USB设备的问题
- 北京语言大学计算机英语统考,大学英语b级复习资料_统考英语b题库|北语网院大学英语b辅导...
- TS科普19 各种流(如:MP3、H264、H265等)在TS的流类型
- Save coredump
- css–sprit_高级CSS –类已用完–通过使用结构化格式标签避免类
- 后厂村折叠:月薪追赶五万,生活低于五千
- java获取文件夹下所有的文件
- win10电脑人脸识别库安装及使用
- 高级操作系统选择判断总结
热门文章
- IPC网络高清摄像机基础知识3(Insta360硬件设计之路 “来自2015年”)
- 携程Hadoop跨机房架构实践
- 电源管理ISL95869HRTZ、ISL95808HRZ概述、规格和应用
- SEO的最最意图终究是啥
- 华硕灵焕3装鸿蒙系统,EMUI 10系统公布、鸿蒙OS 1.0现身,华为隐藏实力终于要爆发了...
- MIT-BIH 心律失常数据库介绍
- Java——线程让步_yield()方法
- python写图,Python实现图片添加文字
- mysql month函数值类型_MySQL常用函数(分类别整理)
- ubuntu18.0404 aws 云服务器启动和登陆 windows 虚拟机