前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

爬虫是什么?

网络爬虫,也叫网络蜘蛛(Web Spider)。它根据网页地址(URL)爬取网页内容,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。说简单点就是模拟人去获得网页上的资源。网页地址(URL)就是我们在浏览器中输入的网站链接,它的专业术语是:统一资源定位符。

在讲解爬虫内容之前,我们来讲一下抓包过程(packet capture):•在此我们以这个壁纸网站为例URL:http://pic.netbian.com/•这是一个4k高清壁纸网站,里面的资源很多,我们用浏览器打开url,进入页面后,在键盘上按下F12会打开开发者工具,如图:

这这里我们会看到一大堆代码,这些代码就是HTML,HTML就像是我们人的身体,它负责这个网页上会出现什么东西,就比如身边负责我们的样貌。通过查找和调试,可以找出我们所需要的数据,比如这里我们需要找到图片的下载地址,为什么要找图片下载地址呢?因为在这个网站上下载图片需要登入账号,而且每个账号每天只能下载一次。但是我们可以通过爬虫,突破限制,从而能够下载图片。

我们点击开发者工作最左边的箭头,然后鼠标找点击图片,我们可以看到开发者工具那里的代码指向了图片的位置,我们可以从这里发现这里这个位置上面有一个a href="/tupian/25761.html’的标签,可以看出这个就是图片的地址,该地址是:URL+/tupian/25761.html

我们是去试一下,在浏览器地址栏输入该地址-回车,可以看到图片出现来,我们猜想的不错,图片的地址就是:URL+href后面的链接。

接下来我们就可以进行对图片的爬取了!

Python和第三方模块的安装

在学习爬虫前我们去要去安装Python[1],找寻安装自己电脑所对应的的Python版本,安装完成以后,按下win+R打开cmd进入DOS窗口输入下面的命令进行requests模块和lxml模块的安装:

在进入正题之前,我先来讲解下 requests 库常用的方法:

lxml是干什么的?简单的说来,lxml是帮助我们解析HTML、XML文件,快速定位,搜索、获取特定内容的Python模块。lxml也是对网页内容解析的一个模块。

Python代码

请大家在爬取图片的过程中,尽量少下载点图片,不然其服务器会崩溃的!•代码的解释,我都在源码里注释了,大家照着注释应该都能看懂,明白!

上源码!

运行程序

输入页数,我这里输入的是100,意思就是爬取100页的所以图片并全部下载。

接着我们再来我们我爬取完后以后的结果,如图:

可以看到这里是全部都下载成功了哦!

别人用钱,而我用python爬虫爬取了一年的4K高清壁纸相关推荐

  1. python 爬虫爬取无损图片 批量下载wallhaven超清壁纸

    Awesome Wallpapers - wallhaven.cc https://wallhaven.cc/wallhaven可以说是世界上最好的壁纸网站之一,其中的壁纸都非常优秀. 废话不多说,直 ...

  2. python关键词爬取bing【必应images】高清大图

    本人python小白一个,为了入门,决定还是直接上个小项目-->爬虫.废话不多说,先剖析一下必应的响应页面.打开firefox,到必应里搜索关键词"欧阳娜娜",再查看请求头发 ...

  3. python爬取王者_爬虫 抓取王者荣耀所有英雄皮肤高清壁纸+超强注释

    [python]代码库import urllib.request import re # 获取主页源码 url = 'https://pvp.qq.com/web201605/herolist.sht ...

  4. python代码壁纸-爬虫 抓取王者荣耀所有英雄皮肤高清壁纸+超强注释

    [python]代码库import urllib.request import re # 获取主页源码 url = 'https://pvp.qq.com/web201605/herolist.sht ...

  5. python高清壁纸_爬虫 抓取王者荣耀所有英雄皮肤高清壁纸(完美版本)

    [python]代码库import urllib.request import json import os import re # 皮肤下载地址 skin_link = 'https://game. ...

  6. python代码手机壁纸_爬虫 抓取王者荣耀所有英雄皮肤高清壁纸+超强注

    [python]代码库import urllib.request import re # 获取主页源码 url = 'https://pvp.qq.com/web201605/herolist.sht ...

  7. 在当当买了python怎么下载源代码-python爬虫爬取当当网

    [实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...

  8. python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例

    这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...

  9. python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么

    在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...

最新文章

  1. mybatis 需要注意的点 MyBatis 插入空值时,需要指定JdbcType (201
  2. apt-get常用命令
  3. Eclipse 常用最新插件.标记
  4. c语言打印空心等腰梯形乐学,C语言做激光发射
  5. hubbledotnet mysql_HubbleDotNet 简介
  6. 收藏 | 《周志华机器学习详细公式推导版》发布,Datawhale开源项目pumpkin-book
  7. Atitit java支持php运行环境 Quercus jar 1.1. Quercus 1 1.2. Web.xml 增加php servlet拦截 1 1.3. Phpinfo。php测试 1
  8. oracle jde开发,第一个JDE报表开发
  9. 摄像模组中光学相关知识(一)
  10. 时间序列分析之GARCH模型介绍与应用
  11. Codeforces 553A Kyoya and Colored Balls 给球涂颜色
  12. APP推广渠道之SEM渠道相关知识科普
  13. 线性回归的从零开始实现
  14. 【容斥原理】(AtCoder Regular Contest 093 F) Dark Horse
  15. U-net网络框架 学习笔记
  16. 使用Nordic芯片的手环OTA(android)
  17. 远程教育两周,家长崩溃简史
  18. 159 至多包含两个不同字符的最长子串
  19. 安装VS2010的SP1补丁的办法
  20. Vue3-pinia(状态管理)

热门文章

  1. grafana导出pdf监控日报
  2. 实验七 不同网段的dhcp
  3. 利用iTextSharp填写中文(中日韩)PDF表单(完整解决方案)
  4. SQL Tuning Advisor使用实例
  5. ctdb main loop
  6. HDU 5045 Contest
  7. 《Sibelius 脚本程序设计》连载(三十九) - 4.9 SystemStaff
  8. 解决mysql锁表终极方法
  9. Davinci DM6446 Codec Engine双核通信环境的搭建
  10. 【编程好习惯】避免使用魔数