python爬虫爬取4K图片实例

爬取目标网站https://pic.netbian.com/4kfengjing/index.html

之前写的时候发现爬取的图片都是缩略图，不是原图4k的，经过改良得以实现

思路：

话不多说，详细思路，直接上代码

# -*- codeing = utf-8 -*-
# @Time : 2021/7/19 15:32
# @Author : ArthurHuang
# @File : 8_4k图片解析爬取(优化).py
# @Software : PyCharm
import requestsfrom lxml import html
etree = html.etree #新版本etree现在需要这样导入import  osif __name__ == "__main__":url = "https://pic.netbian.com/4kfengjing/"  #爬取的是第一页# UA伪装：将对应的User-Agent封装到一个字典中headers = {"User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 91.0.4472.77 Safari / 537.36"}#这三句代码设置想要数据的编码  编码格式跟爬取的网站的格式一样 才不会乱码response =  requests.get(url=url,headers=headers)#response.encoding='gbk' 上下两种方法都是可以的page_text = response.text#实例化etree对象tree = etree.HTML(page_text)#数据解析：这里解析的是第一页a_list = tree.xpath('//div[@class="slist"]/ul/li/a')#创建一个文件夹保存图片if not os.path.exists('./4kpicLibs'):os.mkdir('./4kpicLibs')for a in a_list:img_name = a.xpath('./img/@alt')[0] + '.jpg'img_name = img_name.encode('iso-8859-1').decode('gbk') #通用处理中文乱码的解决方案#print(img_name)imgpage_src = 'https://pic.netbian.com/'+a.xpath('./@href')[0]  # ./表示当前这个li标签# 对图片详情页发起请求，解析出图片的herfresponse = requests.get(imgpage_src, headers=headers)imgsrc_text = response.text# 实例化etree对象imgtree = etree.HTML(imgsrc_text)src_list = imgtree.xpath('//div[@class="photo-pic"]/a') #原图片所在的网页for img in src_list:img_src = 'https://pic.netbian.com/' + img.xpath('./img/@src')[0]  # ./表示当前这个li标签#print(img_src)img_data = requests.get(url=img_src, headers=headers).content #content 处理图片的二进制数据img_path = '4kpicLibs/'+img_namewith open(img_path,'wb')as fp:fp.write(img_data)print(img_name,"下载成功！！！")

项目实现的还不是很完美，因为个人能力，分页获取图片功能无法实现，原因在于

我发现第一页的url是https://pic.netbian.com/4kfengjing/index.html

往后的url是

https://pic.netbian.com/4kfengjing/index_2.html

https://pic.netbian.com/4kfengjing/index_3.html

....

我不知道这里要怎么处理，如果没有那个_,可以用占位符加上循环获取，但是那个_把我给整懵了，有能力的大牛麻烦可以在评论区告诉我一下，感谢！

python爬虫爬取4K图片实例相关推荐

Python爬虫爬取美女写真实例
Python爬虫爬取美女写真实例微信关注公众号:夜寒信息致力于为每一位用户免费提供更优质技术帮助与资源供给,感谢支持! 这是我写的一个较为简单的爬虫代码,用于爬取美女写真(咳咳,当然是正规 ...
python爬虫,爬取下载图片
python爬虫,爬取下载图片分别引入以下三个包 from urllib.request import urlopen from bs4 import BeautifulSoup import re ...
Python爬虫爬取相关图片
简要的实现实现Python爬虫爬取百度贴吧页面上的图片,下面的网页就是本篇博客所要爬的网页,当然看到的只是其中的一部分图片,是所要爬取的页面, 而下图则是最终的爬取的图片: 接下来就简要的讲讲爬取的整 ...
python爬虫爬取网页图片_Python爬虫：爬取网页图片
先分析查找要爬取图片的路径在浏览器F12 审查元素整体实现代码 # -- coding:UTF-8 -- import requests from bs4 import BeautifulSoup ...
上手快！！福利局！新手如何使用python爬虫爬取网页图片（使用正则进行数据解析）当然这个新手是我自己
作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...
python爬虫爬取百度图片总结_python爬虫如何批量爬取百度图片
当我们想要获取百度图片的时候,面对一张张图片,一次次的点击右键下载十分麻烦.python爬虫可以实现批量下载,根据我们下载网站位置.图片位置.图片下载数量.图片下载位置等需求进行批量下载,本文演示py ...
python爬虫爬取百度图片,python爬虫篇2：爬取百度图片
入门级 import requests import re import os from urllib import error def main(): dirPath = "E:\pyth ...
超详细解析python爬虫爬取京东图片
超详细图片爬虫实战实例讲解(京东商城手机图片爬取) 1.创建一个文件夹来存放你爬取的图片 2.第一部分代码分析 3.第二部分代码分析完整的代码如下所示: 升级版代码: 爬取过程中首先你需要观察在手 ...
利用python爬虫爬取斗鱼图片(简单详细)
关于在一个安静的夜晚,我缓慢的打开了电脑,望着已经睡着的父母,我轻轻的把门关上,看着斗鱼颜值主播的魅力,我不尽感叹,要是每天都可以不需要那么麻烦的去看那该有多好! 于是我想起了最近刚学的爬虫,嘴角露 ...

python爬虫爬取4K图片实例

python爬虫爬取4K图片实例相关推荐

最新文章

热门文章