python壁纸数据抓取_Python爬虫:爬取必应壁纸(可直接运行)
1、Why is bing?
必应专门的壁纸网站,每天都会更新一张高质量,漂亮到不行的图片。非常适合用来当电脑的桌面壁纸,且可以适配不同的桌面尺寸,提升你的桌面逼格。
2、code
2.1 所需要的第三方库
代码中涉及到的第三方库。
os
re
requests
2.2 代码
下载运行前需更改代码中储存下载图片的路径
下载即可运行!!
#爬取必应壁纸
import os
import re
import requests
def get_one_page(url): # 解析给定url的网页源代码
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}
response = requests.get(url,headers = headers)
if(response.status_code == 200): # 状态码200说明返回状态正确,状态码是404,403等其他代号则说明网页请求失败
return response.text
return None
def download(url,filename): # 下载图片到本地文件夹
filepath = 'E:/vlog// '+ filename + '.jpg' # 这里的路径可以更改自己的文件夹
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}
if os.path.exists(filepath): #判断图片路径是否已经存在,如果存在就不保存了
return
with open(filepath,'wb')as f: # 把图片以二进制形式写入到本地
response = requests.get(url,headers=headers)
f.write(response.content)
def parse(html): # 解析网页源代码
pattern = re.compile('data-progressive="(.*?)".*?
(.*?)
') # 正则表达式筛选html
items = re.findall(pattern,html)
for item in items:
try:
url = item[0].replace('640','1920').replace('480','1080') # 替换图片尺寸
#print(url)
imagename = item[1].strip()
rule = re.compile(r'[a-zA-z1-9()-/]')#[]用来表示一组字符【abc】匹配a,b,或c
imagename = rule.sub('', imagename)
download(url,imagename.strip())
print(imagename,"正在下载")
except Exception:
continue
if __name__ == '__main__':
for page in range(1,20): # 爬取页面的范围,可以随意更改
url = 'https://bing.ioliu.cn/?p='+str(page)
print("正在抓取第", page, "页" ,url)
html = get_one_page(url)
parse(html)
3、Result
运行过程
运行结果
一些说明
下载的有些图片显示不出来,可能是解析源代码的时候出现的小问题,但是概率很小,基本上爬取100张图片才会出现几张问题图片
如果需要爬取大量图片,需要设置休眠时间,防止被浏览器的反爬机制识别为爬虫从而爬取失败
标签:Python,html,爬取,headers,imagename,url,必应,page
来源: https://blog.csdn.net/weixin_44064553/article/details/111026409
python壁纸数据抓取_Python爬虫:爬取必应壁纸(可直接运行)相关推荐
- python 爬取_Python爬虫爬取马蜂窝北京景点信息
背景 来北京有些日子了,但是每个周末都窝在六环外的村里躺着.想想不能再这么浪费时间了,得出去玩!但是去哪玩呢?于是乎想着,先把北京的景点以及位置都保存起来,然后在分析分析做个出行计划.从哪里获取景点信 ...
- python 实时数据推送_python scrapy 爬取金十数据并自动推送到微信
一.背景 因业务需要获取风险经济事件并采取应对措施,但因为种种原因又疏忽于每天去查看财经日历,于是通过爬取金十数据网站并自动推送到微信查看. 二.目标实现 image 三.环境与工具 1.pychar ...
- python个人简历爬取_python爬虫爬取智联简历?
一.网页请求方式 GET方法和POST 方法.与 POST 相比,GET 的安全性较差,因为所发送的数据是 URL 的一部分.在发送密码或其他敏感信息时绝不要使用 GET 方法.POST 比 GET ...
- python xpath循环_Python爬虫 爬取北京二手房数据
点击蓝字"python教程"关注我们哟! 前言 Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以小的给各位看官们准备了高价值Python学习视频教程及 ...
- python爬取网页数据流程_Python爬虫爬取数据的步骤
爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...
- python爬取数据步骤_Python爬虫爬取数据的步骤
爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...
- python爬表格数据_python爬虫,爬取表格数据
python爬虫,爬取表格数据 python爬虫,爬取表格数据 python爬虫,爬取全国空气质量指数 编程环境:Jupyter Notebook 所要爬取的网页数据内容如下图 python爬虫代码及 ...
- python爬取bilibili弹幕_Python爬虫爬取Bilibili弹幕过程解析
先来思考一个问题,B站一个视频的弹幕最多会有多少? 比较多的会有2000条吧,这么多数据,B站肯定是不会直接把弹幕和这个视频绑在一起的. 也就是说,有一个视频地址为https://www.bilibi ...
- python爬虫提取人名_python爬虫—爬取英文名以及正则表达式的介绍
python爬虫-爬取英文名以及正则表达式的介绍 爬取英文名: 一. 爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个csv ...
- python跑一亿次循环_python爬虫爬取微博评论
原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...
最新文章
- [娱乐]一款浅陋的C++控制台贪吃蛇小游戏
- Python——有1、2、3、4个数字,能组成多少个互不相同且无重复数字的三位数?都是多少?
- c++ 条码打印机句柄画图_FBA发货前期需要准备哪些工作?FBA发货准备工作、打印机要求介绍...
- KDD2021 放榜,6 篇论文带你了解阿里妈妈AI技术
- Ubuntu 16.04 安装 cuda 7.5.run BEGIN failed--compilation aborted at ./cuda-installer.pl line 5
- 如何给U盘设置一张妖娆又骚气的图标
- 依赖反转原则DIP 与使用了Repository模式的asp.net core项目结构
- 高清壁纸:60款可爱的圣诞节电脑桌面壁纸《中篇》
- Java学习笔记 06 数字格式化及数学运算
- 【机器学习】回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现)...
- Linux学习——操作文件与目录
- Python import上一层级的模块
- WBS和TASK的区别?
- NLPIR-JAVA版本-MAC-LINUX-WINDOWS操作系统均适用
- CC2550和CC2500的区别
- 新疆大学计算机对口支援高校,北大清华领衔对口支援,西藏大学和新疆大学谁的阵容更强大?...
- 并查集+最小生成树(Kruskal)+最短路(Floyd、Dijkstra)
- 鼠标经过文字显示隐藏图片css样式
- 高德地图实现昼夜、卫星图切换
- 基于PHP的艺术品展示系统
热门文章
- 华硕(ASUS)路由器AP模式设置教程
- 电脑重装系统需要多少钱?
- Spring系列第2篇:控制反转(IoC)与依赖注入(DI),晦涩难懂么?
- esb接口测试_ESB产品架构之愚见
- java登录界面圆形头像,Android使用CircleImageView实现圆形头像的方法
- 读《所谓情商高,就是会说话》笔记
- Riemannian geometry applied to BCI classification
- Java语言基础Day07(API概述、Scanner、匿名对象、Random、对象数组、ArrayList)
- 正睿OI补题(二分与分治)
- 万物互联时代,谷歌、亚马逊Alexa、homekit该如何选择?