初始python爬虫-爬取彼岸图单张到全部图片

  • 1.单张图片爬取
  • 2.一页图片
  • 3.多页图片

彼岸图链接: https://pic.netbian.com/new/

用到的库:

import  requests  #请求网页
from lxml import html #解析网页源代码
import time #时间模块

1.单张图片爬取

首先要知道哪个链接才是图片的下载链接(找到下载链接才能使用代码进行存储)

操作步骤:
①随便点进去一张图片
②按f12检查 点击出现的箭头图标 选中图片

可以看到圈住的后缀为jpg格式的链接就是这张图片的下载链接


③复制图片下载链接 以下代码:

import requests
# 构造请求头
headers = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4651.0 Safari/537.36","cookie":"__yjs_duid=1_0ed165241c418ef3bd1a08a4f18990101634282593810;Hm_lvt_526caf4e20c21f06a4e9209712d6a20e=1634282597; zkhanecookieclassrecord=%2C65%2C54%2C; yjs_js_security_passport=f2c27672aa84310f33e0f25d8859275320f1e1bd_1634284550_js; Hm_lpvt_526caf4e20c21f06a4e9209712d6a20e=1634284830"
}
url = 'https://pic.netbian.com/uploads/allimg/210528/191150-16222003104792.jpg'
con = requests.get(url,headers=headers).content #请求图片链接并转为二进制(注意图片存储必须以二进制格式)
with open('b.jpg','wb') as f:f.write(con)

完成效果:

可以看到该脚本下多个以代码中命名的jpg为后缀的图片
看到这一张图片的抓取就完成了

2.一页图片

如果我们还像单张那样获取图片链接就太麻烦了,这次我们用语法直接获取一页图片的下载链接

步骤如下:
先导入要用到的第三方库

import requests #请求目标网页
from lxml import html #对目标网页的源代码进行解析提取

①向目标网页进行请求

url = 'https://pic.netbian.com/new/'
res = requests.get(url).text #请求目标  .text获取网页源代码
dom = html.etree.HTML(res) #解析源代码用于后面我们提取

②f12检查页面

鼠标放到链接那一行右击==>Copy==>Copy XPath
//[@id=“main”]/div[3]/ul/li[1]/a/img #第一张图片
//
[@id=“main”]/div[3]/ul/li[2]/a/img #第二张图片
跟第一张做比较可以发现只有li的索引不同
所以:
//*[@id=“main”]/div[3]/ul/li/a/img #获取当前页面索引链接

而我们要找的下载链接是获取img标签的src属性
所以图片下载链接用xpath语法获取为:
//*[@id=“main”]/div[3]/ul/li/a/img/@src (@后跟属性名称 即获取该属性的值)

这是可以看到获取到的链接和图片的真实链接是不一样的
https://pic.netbian.com/uploads/allimg/211120/004848-1637340528f071.jpg
/uploads/allimg/211120/005250-1637340770807b.jpg’
所以给获取到的src属性拼接上前面的域名:

这时候的img_url就是我们要找的下载链接
然后就可以进行存储了

import requests
from lxml import html
url = 'https://pic.netbian.com/new/'
res = requests.get(url).text
dom = html.etree.HTML(res)
imgs_url = dom.xpath("//div[@class='slist']/ul/li/a/img/@src")
# print(imgs_url)
for i in range(len(imgs_url)):img_url = 'https://pic.netbian.com/'+imgs_url[i]# print(img_url)name = 'No'+str(i)  #用于命名图片print('正在存储:'+name)con = requests.get(img_url).contentwith open('one_page/%s.jpg'%name,'wb') as f:f.write(con)


一页的图片就全下载下来了

3.多页图片

我们根据一页图片的写法可以分析得出分别请求目标页然后提取每页的链接就能对多页的图片进行下载

https://pic.netbian.com/new/     第一页链接
https://pic.netbian.com/new/index_2.html    第二页链接
https://pic.netbian.com/new/index_3.html   第三页

可以看出除了第一页都是有规律的所以可以遍历出每页的链接

代码如下:`

import requests
from lxml import html
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4651.0 Safari/537.36","cookie": "__yjs_duid=1_dd6220b2a3c19e33333239dd66b5da881635232514518; Hm_lvt_14b14198b6e26157b7eba06b390ab763=1636252200,1636252296; Hm_lvt_526caf4e20c21f06a4e9209712d6a20e=1636254461,1636254484,1636333136,1637483174; zkhanecookieclassrecord=%2C54%2C; Hm_lpvt_526caf4e20c21f06a4e9209712d6a20e=1637488659",}
#只下载前5页内容
for i in range(1, 6):url = "https://pic.netbian.com/new/index_%s.html" % (i)if i == 1:url = "https://pic.netbian.com/new/"# print(url)res = requests.get(url,headers=headers)for i in range(1,6):if res.status_code != 200:print('重新加载%s页'%i)else:continuedom = html.etree.HTML(res.text)imgs_url = dom.xpath("//div[@class='slist']/ul/li/a/img/@src")# print(imgs_url)for n in range(len(imgs_url)):img_url = 'https://pic.netbian.com/' + imgs_url[n]# print(img_url)name = 'No' + str(i)+'-'+str(n)  # 用于命名图片print('正在存储:' + name)con = requests.get(img_url,headers=headers).contentwith open('one_page/%s.jpg' % name, 'wb') as f:f.write(con)
  • List item

初始python爬虫-爬取彼岸图单张到全部图片相关推荐

  1. python爬虫爬取彼岸图网图片

    python爬虫爬取彼岸图网图片 话不多说,直接上代码! import requests from PIL import Image from io import BytesIO import re ...

  2. Python爬虫爬取Twitter视频、文章、图片

    Python爬虫爬取Twitter视频.文章.图片 Twitter的Python爬虫 https://github.com/bisguzar/twitter-scraper 2.2k星标 (2020. ...

  3. 用Python爬虫爬取炉石原画卡牌图片

    前段时间看了点Python的语法以及制作爬虫常用的类库,于是动手制作了一个爬虫尝试爬取一些炉石原画图片.本文仅记录对特定目标网站的分析过程和爬虫代码的编写过程.代码功能很局限,无通用性,仅作为一个一般 ...

  4. Python爬虫爬取彼岸图库壁纸(requests+re+os 模块的简单运用)

    目标网址:http://pic.netbian.com/ 该壁纸网站免费,打赏30元可以获得永久VIP下载全站无损壁纸(反正我是没试过,各位有钱的大佬可以试试),此次目的只是获取有损大图 下载保存目录 ...

  5. python爬虫吧-python爬虫-爬取百度贴吧帖子加图片

    1.[代码][Python]代码 # -*- coding: utf-8 -*- """ 百度贴吧帖子抓取 """ import urlli ...

  6. Python新手爬虫训练小项目《爬取彼岸图网》(超详细讲解版)

    Python新手爬虫训练小项目<爬取彼岸图网>(超详细讲解版) 这是我的第一篇文章,作为一名新手爬虫,这个算是我这几天来的努力成果,虽然代码寥寥几行但花费了大半天,新手上路还是不能只看视频 ...

  7. Python网络爬虫8 - 爬取彼岸图网美图

    彼岸图网收集了大量美图,是个不错的爬取对象.话不多说,直接上图. 分析站点 分类列表 爬取之前,自然要分析一波,这个站点的框架比较简单,从分类着手,共包含12个分类项. 4K人物 4K动漫 4K动物 ...

  8. [ Python ] 爬虫类库学习之 xpath,爬取彼岸图网的 小姐姐 图片

    安装:pip install lxml 实例化一个etree对象 from lxml import etree 1.将本地的html文档中的源码数据加载到etree对象中 etree.parse(fi ...

  9. Python爬取彼岸图4k壁纸,想要什么类型的壁纸就输入什么壁纸,太方便了。

    你桌面的壁纸还是用的默认壁纸么?太low了,今天教你用python爬取彼岸图网的4k壁纸,想要什么类型的壁纸就爬什么壁纸,快点来跟我一起试试吧! 这个壁纸怎么样?喜欢吗?你值得拥有... 代码操作一下 ...

最新文章

  1. SVD(奇异值分解)+NMF(非负矩阵分解)
  2. 二分查找(递归和非递归)
  3. centos 下载 哪个版本_生信分析平台搭建(十六):CentOS
  4. java---面试题 丑数
  5. A strange lift HDU - 1548(基础广搜)
  6. 免安装Mysql在Mac中的神坑之Access denied for user 'root'@'localhost' (using password: YES)
  7. ig 焊接机器人_发那科机器人焊接应用的IO配置(总线型)
  8. 安全地更改grub2屏幕分辨率
  9. 台式计算机怎么设置屏幕常亮,怎么设置电脑屏幕一直亮着
  10. 写给自己的CDSN账号
  11. python 基础-如何调用函数
  12. 硬件基础-开尔文电桥法
  13. vuex的commit和dispatch
  14. [SUCTF 2019]EasySQL1
  15. SQL如何进行帕累托分析?(窗口函数、累计百分比分类)
  16. 以太坊:快速入门 Truffle
  17. LeetCode每日一题——952. 按公因数计算最大组件大小
  18. COPY_FROM_USER 详解
  19. AVFoundation使用AirPlay
  20. (转)flex布局换行后间隙问题

热门文章

  1. KMP算法-next函数介绍
  2. 公园景区广播系统方案
  3. 解决问题spring加载配置文件aop:before 报错: Cannot create inner bean '(inner bean)' of type...
  4. [vijosP1076]海战
  5. 5月份必火20条爆笑段子
  6. 时滞/延迟微分方程(delay-differential equation)
  7. 法国DREAM方案SAM5504B/SAM5704B音源芯片
  8. 关于eBPF与可观测性,你想知道的都在这里
  9. 双屏切换单屏,之前在另一显示器显示的软件窗口现无法显示解决方法
  10. 用js获取某一年一共多少天和剩余天数