毕竟是刚接触,还是要多写一些小项目来练手,确实是有进步,从最开始的什么都不懂,到现在已经可以慢慢的完全自己写过程,这次爬了一个小的图片网站批量保存了一些好看的壁纸
还有,编程真的是一个积累的东西,通过这次简单的爬取图片,又学到了一个不知何时会碰到的bug
关于全局变量,如果只是使用的话不用加global index说明,如果要修改就必须要加
代码如下:

import requests
import lxml
from bs4  import BeautifulSoup
import os
import timeindex = 1 #全局变量用来之后命名壁纸
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
}def ceshi(url):try:response = requests.get(url, headers=headers)if response.status_code==200 or response.status_code==304:#我发现有时候这个状态码会是304,百度了一下是和缓冲有关,也算是成功吧,还没有太懂,之后懂了再回来解释return response.textreturn Noneexcept:return Nonedef parse_one_page(html):global index#之前出错就是因为这里没有声明一下这是个全局变量soup=BeautifulSoup(html,'lxml')imgs=soup.find_all(class_='lazy')#观察图片链接所在位置for img in imgs:img=img.attrs['src']#找到链接准确位置,经过观察这个src属性的值就是图片链接,这是输出标签中属性名为src的属性值img='https:'+img#图片链接完整格式picture=requests.get(img,headers=headers)if os.path.exists(r'f://picture.jpg'):os.remove(r'f://picture.jpg')with open("F:\pictureall\{}.jpg".format(index), 'wb') as jpg:#存入文件中,路径加名字jpg.write(picture.content)#以正确格式存入print("Successful preservation of No. 5" % index)index += 1#全局变量增加,用来命名图片def main(i):if i=='1':#每个页面链接,经过观察,链接统一格式为下面那个,但是第一页特殊化了url='https://www.woyaogexing.com/shouji/z/omliuxing/'else:url='https://www.woyaogexing.com/shouji/z/omliuxing/index_'+i+'.html'html=ceshi(url)# print(html)parse_one_page(html)if __name__=='__main__':for i in range(1,6):main(str(i))#改变链接地址time.sleep(1)

结果部分截图:

爬取静态壁纸网站实现批量下载相关推荐

  1. 3秒爬取百度图片网站,批量下载各种图片

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:一行数据 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...

  2. python爬取qq音乐周杰伦_Python爬取QQ音乐url及批量下载

    QQ音乐还是有不少的好音乐,有些时候想要下载好听的音乐,如果在网页下载都是还需要登录什么的.于是,来了个QQmusic的爬虫.至少我觉得for循环爬虫,最核心的应该就是找到待爬元素所在url吧. 参考 ...

  3. Python爬取QQ音乐url及批量下载

    QQ音乐还是有不少的好音乐,有些时候想要下载好听的音乐,如果在网页下载都是还需要登录什么的.于是,来了个QQmusic的爬虫.至少我觉得for循环爬虫,最核心的应该就是找到待爬元素所在url吧. 参考 ...

  4. 基于Jsoup的Java爬虫-爬取必应壁纸网站的壁纸(Java静态壁纸爬虫实例)

    准备阶段 1.必应壁纸网站:https://bing.ioliu.cn(爬取对象网站) 2.Jsoup包下载地址:https://jsoup.org/download(以下代码需要用到该包,记得导入包 ...

  5. python爬取有声小说网站实现自动下载实例

    最近想下载一些有声小说,但是苦于没有找到批量下载,每次都是单集单集的下载的,觉得很麻烦,就考虑用python写一个爬虫来实现自动搜集小说,自动下载.下面就是开始展开漫漫的爬虫之路. 基础的就不多说了, ...

  6. 爬取某壁纸网站图片(简单爬虫,入门)

    1. 工具 PyCharm Python3.7 requests库 2. 网页分析 2.1 F12打开浏览器开发者模式,使用抓包工具分析网页. 2.2 浏览分析网页,发现先向下滚动时,会向服务器发送请 ...

  7. Python 爬取qqmusic音乐url并批量下载

    转自:https://www.cnblogs.com/dearvee/p/6602677.html 实测,可行. qqmusic上的音乐还是不少的,有些时候想要下载好听的音乐,但有每次在网页下载都是烦 ...

  8. python爬取某壁纸网站壁纸

    import requests,os,time,re import multiprocessing as mp headers = { 'User-Agent': 'Mozilla/5.0 (Wind ...

  9. python爬取桌面壁纸(初学者),一看就会

    今天想给我的电脑里面多加点壁纸,但是嫌弃一个个保存太慢,于是想着写个爬虫直接批量爬取,正好我也刚刚学完爬虫. 我们要爬取一个壁纸网站 http://www.netbian.com/weimei/ind ...

最新文章

  1. android sdk软件开发套件,ANDROIDSDK-SITARA
  2. solr查询工作原理深入内幕
  3. Common-lang包中StringUtils用法
  4. 【LDPC系列1】基于MATLAB中LDPC编译码器对象的图像传输通信系统仿真
  5. 【仿59store校园o2o系统 v6.8】夜猫店+校园超市+学生街+微信公众号绑定+校园跑腿插件
  6. 6个重要的.NET概念:栈,堆,值类型,引用类型,装箱,拆箱
  7. Position independent code and data (ROPI and RWPI)
  8. win10安装tomcat9
  9. IDEA之Git分支以及Stash使用
  10. 帆软实现分页时第一行和最后两行冻结方式
  11. 云计算时代商业银行的战略机会
  12. 微信小程序 控制台报错net::ERR_UNSAFE_PORT
  13. Unity AzureKinect 初识(二) 姿势识别
  14. ONES X 深圳农村商业银行 | 数字化项目管理实践
  15. html内边距居中,HTML中详述外边距样式属性(margin)与内边距样式属性(padding)...
  16. 区块链改革杭州闭门会议——分享链改机遇,探讨价值联动!
  17. 游戏搜索引擎 - 6617.com 内测,欢迎大家点评 :)
  18. [本周总结并查集,搜索]
  19. ov5645 mipi 驱动
  20. 前置自增加++与后置自增加++区别,前后自减同理

热门文章

  1. 家用威联通NAS的硬盘方案
  2. 计算机工资表2017,薪级工资对照表2017年最新
  3. 关于蓝牙打印机的一些问题
  4. 《焦虑心理学》——压力感篇
  5. php离线bt下载,transmission + nginx = 离线BT下载站
  6. ps4仁王服务器不稳定,原来《仁王》放弃独占PS4早有预兆 未来将是跨平台大潮...
  7. 瑞典皇家理工学院计算机,瑞典皇家理工学院
  8. ElasticSearch健康检查localhost:9200 not reachable
  9. Linux系统下detectron2安装(cuda11为例)
  10. dtop: 一个基于减法的系统占用率及系统性能测量工具