python爬虫爬取4K图片实例
爬取目标网站https://pic.netbian.com/4kfengjing/index.html
之前写的时候发现爬取的图片都是缩略图,不是原图4k的,经过改良得以实现
思路:
话不多说,详细思路,直接上代码
# -*- codeing = utf-8 -*-
# @Time : 2021/7/19 15:32
# @Author : ArthurHuang
# @File : 8_4k图片解析爬取(优化).py
# @Software : PyCharm
import requestsfrom lxml import html
etree = html.etree #新版本etree现在需要这样导入import osif __name__ == "__main__":url = "https://pic.netbian.com/4kfengjing/" #爬取的是第一页# UA伪装:将对应的User-Agent封装到一个字典中headers = {"User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 91.0.4472.77 Safari / 537.36"}#这三句代码设置想要数据的编码 编码格式跟爬取的网站的格式一样 才不会乱码response = requests.get(url=url,headers=headers)#response.encoding='gbk' 上下两种方法都是可以的page_text = response.text#实例化etree对象tree = etree.HTML(page_text)#数据解析:这里解析的是第一页a_list = tree.xpath('//div[@class="slist"]/ul/li/a')#创建一个文件夹保存图片if not os.path.exists('./4kpicLibs'):os.mkdir('./4kpicLibs')for a in a_list:img_name = a.xpath('./img/@alt')[0] + '.jpg'img_name = img_name.encode('iso-8859-1').decode('gbk') #通用处理中文乱码的解决方案#print(img_name)imgpage_src = 'https://pic.netbian.com/'+a.xpath('./@href')[0] # ./表示当前这个li标签# 对图片详情页发起请求,解析出图片的herfresponse = requests.get(imgpage_src, headers=headers)imgsrc_text = response.text# 实例化etree对象imgtree = etree.HTML(imgsrc_text)src_list = imgtree.xpath('//div[@class="photo-pic"]/a') #原图片所在的网页for img in src_list:img_src = 'https://pic.netbian.com/' + img.xpath('./img/@src')[0] # ./表示当前这个li标签#print(img_src)img_data = requests.get(url=img_src, headers=headers).content #content 处理图片的二进制数据img_path = '4kpicLibs/'+img_namewith open(img_path,'wb')as fp:fp.write(img_data)print(img_name,"下载成功!!!")
项目实现的还不是很完美,因为个人能力,分页获取图片功能无法实现,原因在于
我发现第一页的url是https://pic.netbian.com/4kfengjing/index.html
往后的url是
https://pic.netbian.com/4kfengjing/index_2.html
https://pic.netbian.com/4kfengjing/index_3.html
....
我不知道这里要怎么处理,如果没有那个_,可以用占位符加上循环获取,但是那个_把我给整懵了,有能力的大牛麻烦可以在评论区告诉我一下,感谢!
python爬虫爬取4K图片实例相关推荐
- Python爬虫爬取美女写真实例
Python爬虫爬取美女写真实例 微信关注公众号:夜寒信息 致力于为每一位用户免费提供更优质技术帮助与资源供给,感谢支持! 这是我写的一个较为简单的爬虫代码,用于爬取美女写真(咳咳,当然是正规 ...
- python爬虫,爬取下载图片
python爬虫,爬取下载图片 分别引入以下三个包 from urllib.request import urlopen from bs4 import BeautifulSoup import re ...
- Python爬虫爬取相关图片
简要的实现实现Python爬虫爬取百度贴吧页面上的图片,下面的网页就是本篇博客所要爬的网页,当然看到的只是其中的一部分图片,是所要爬取的页面, 而下图则是最终的爬取的图片: 接下来就简要的讲讲爬取的整 ...
- python爬虫爬取网页图片_Python爬虫:爬取网页图片
先分析查找要爬取图片的路径 在浏览器F12 审查元素 整体实现代码 # -- coding:UTF-8 -- import requests from bs4 import BeautifulSoup ...
- 上手快!!福利局!新手如何使用python爬虫爬取网页图片(使用正则进行数据解析)当然这个新手是我自己
作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...
- python爬虫爬取百度图片总结_python爬虫如何批量爬取百度图片
当我们想要获取百度图片的时候,面对一张张图片,一次次的点击右键下载十分麻烦.python爬虫可以实现批量下载,根据我们下载网站位置.图片位置.图片下载数量.图片下载位置等需求进行批量下载,本文演示py ...
- python爬虫爬取百度图片,python爬虫篇2:爬取百度图片
入门级 import requests import re import os from urllib import error def main(): dirPath = "E:\pyth ...
- 超详细解析python爬虫爬取京东图片
超详细图片爬虫实战 实例讲解(京东商城手机图片爬取) 1.创建一个文件夹来存放你爬取的图片 2.第一部分代码分析 3.第二部分代码分析 完整的代码如下所示: 升级版代码: 爬取过程中首先你需要观察在手 ...
- 利用python爬虫爬取斗鱼图片(简单详细)
关于 在一个安静的夜晚,我缓慢的打开了电脑,望着已经睡着的父母,我轻轻的把门关上,看着斗鱼颜值主播的魅力,我不尽感叹,要是每天都可以不需要那么麻烦的去看那该有多好! 于是我想起了最近刚学的爬虫,嘴角露 ...
最新文章
- python协程框架_[记录]python的简单协程框架(回调+时间循环+select)
- 将syslog ng日志写入MySQL(远程)数据库
- java maven 编译 清理 测试 打包项目
- sqlserver附加数据库错误823的解决方案
- 深度学习人体姿态估计算法综述
- C#中new和override的区别
- NoSQL系列:选择合适的数据库
- javafx 表格列拖拉_JavaFX技巧22:“自动调整大小(树)”表列
- 项目管理最佳实践方法_项目管理最佳实践,企业如何进行有效的项目管理
- linux操作常用命令
- 缺钱还是车库放不下?王思聪两台顶级座驾上架二手市场,要价比新车还贵!...
- TSO、UFO、GSO、LRO、GRO和RSS介绍(ethtool命令)
- 2020年下半期第一次实训
- MySQL基本架构示意图
- javascript顺序点击文字验证
- linux的图形界面的管理
- Educational Codeforces Round 95题解
- 东北育才 DAY2组合数取mod (comb)
- CW32L083系列MCU系统时钟详解
- CANopen对象字典
热门文章
- 『金融帝国实验室』(CapLab)〔官方正版游戏程式/补丁〕更新发布_V8.1.03(2022年第27次)
- 记一次帮同学搭建项目Tomcat启动失败,至少有一个JAR被扫描用于TLD但尚未包含TLD。
- 36氪acw_sc__v2
- android手机投影至mac,一键投影MAC一款无线工具
- Deeper Network 跻身 2021 万向区块链全球峰会 WEB3.0 代表项目
- QC新旧七图汇总连载2——帕累托图(排列图)
- 使用正则表达式进行小说爬虫
- 多个网站共享一个mysql数据库_多网站共用一MySQL数据库有影响吗?
- STC8051 系列>>STC15W408AS系列单片机
- 香河机器人产业园属于哪个区_廊坊香河机器人产业园首家企业投产