requests库和lxml库爬取彼岸图网的图片
```python
import requests,os
from lxml import etree# 创建对应的存储的文件夹
if(not os.path.exists('./彼岸图网图片')):os.makedirs('./彼岸图网图片')# 加上一些伪装
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
}
# 分析各自页的url的关系
# https://pic.netbian.com/ 第一页
# https://pic.netbian.com/index_2.html 第二页
# https://pic.netbian.com/index_3.html 第三页# 爬取10页的图片内容
for i in range(1,11):if i == 1:url = 'https://pic.netbian.com/'else:url = f'https://pic.netbian.com/index_{i}.html'# 获取返回对象response = requests.get(url=url, headers=headers)response.encoding = 'gbk'# 打印请求头信息# print(response.headers)# 打印状态码# print(response.status_code)# 获取网页内容 response.content 返回的是bytes型也就是二进制的数据 返回字节流 b'...'# content = response.content# print(content)# print('*****************')# 返回的是Unicode型的数据text = response.text# 调用HTML类进行初始化html = etree.HTML(text)# 这个获取的是预览缩略的小图# 获取对应属性、节点下面的值# # 获取图片名称img_title_list = html.xpath('//ul[@class="clearfix"]/li/a//img/@alt')# # 获取图片地址# img_src_list = html.xpath('//ul[@class="clearfix"]/li/a//img/@src')# 如何获取大图# 先获取对应图片跳转的链接img_a_list = html.xpath('//ul[@class="clearfix"]/li/a/@href')img_src_list = []for i in range(0,len(img_a_list)):# 加上前面的域名 https://pic.netbian.com/img_a = 'https://pic.netbian.com/' + img_a_list[i]# // a[ @ id = 'img'] / img / @ srcnew_html = etree.HTML(requests.get(img_a).text)img_src_list.append(new_html.xpath('//a[@id="img"]/img/@src')[0])# print(img_src_list)for i in range(0,len(img_title_list)):img_title = img_title_list[i]# 加上前面的域名 https://pic.netbian.com/img_src = 'https://pic.netbian.com/' + img_src_list[i]# 获取图片的后缀名img_suffix = img_src.split('.')[-1]# 请求图片地址img_r = requests.get(img_src)try:# wb: 以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。with open('./彼岸图网图片/'+img_title+'.'+img_suffix,'wb') as f:f.write(img_r.content)print(f'{img_title}下载成功')except Exception as e:print(e)print('f{img_title}下载失败')
requests库和lxml库爬取彼岸图网的图片相关推荐
- 爬取彼岸图网4k图片
爬取彼岸图网高清美女图片 代码如下
- Python新手爬虫训练小项目《爬取彼岸图网》(超详细讲解版)
Python新手爬虫训练小项目<爬取彼岸图网>(超详细讲解版) 这是我的第一篇文章,作为一名新手爬虫,这个算是我这几天来的努力成果,虽然代码寥寥几行但花费了大半天,新手上路还是不能只看视频 ...
- [ Python ] 爬虫类库学习之 xpath,爬取彼岸图网的 小姐姐 图片
安装:pip install lxml 实例化一个etree对象 from lxml import etree 1.将本地的html文档中的源码数据加载到etree对象中 etree.parse(fi ...
- 用Python爬取彼岸图网图片
用Python爬取彼岸图网图片 *使用了 四个模块 import time import requests from lxml import etree import os 没有的话自行百度安装. ...
- python爬虫爬取彼岸图网图片
python爬虫爬取彼岸图网图片 话不多说,直接上代码! import requests from PIL import Image from io import BytesIO import re ...
- Python网络爬虫8 - 爬取彼岸图网美图
彼岸图网收集了大量美图,是个不错的爬取对象.话不多说,直接上图. 分析站点 分类列表 爬取之前,自然要分析一波,这个站点的框架比较简单,从分类着手,共包含12个分类项. 4K人物 4K动漫 4K动物 ...
- 使用python爬取斗图网的图片
使用python爬取斗图网的图片 以下是代码部分: # -*- coding: utf-8 -*- """ Created on Wed Apr 14 14:41:42 ...
- 大批量爬取彼岸图网内容遇到的问题
用多进程配套多进程短时间大量爬取图网25000张图. 问题:出现程序无结果不出问题也不报错,正常结束的异常,经多方检查调试. 原因:彼岸图网cookie隔30min刷新一次,用旧的cookie爬第一级 ...
- 【爬虫】关于爬取彼岸图网4K壁纸的分析
目标地址 网络绝大部分所爬取的壁纸URL类似这样: https://pic.netbian.com/uploads/allimg/180315/110404-1521083044b19d.jpg 然而 ...
最新文章
- php中使用Curl、socket、file_get_contents三种方法POST提交数据
- android学习日记24--Android 菜单开发
- 图像处理之ROI区域裁剪
- 关于fragment backstate的介绍
- Libvirt虚拟机的Qos与Cgroup
- 《人机交互与戏剧表演:用戏剧理论构建良好用户体验》一导读
- FreeRTOS内核实现02:任务的定义与任务切换
- 推荐制作精良的笔记软件Wire Note 应用键盘钩子技术获取即时数据 资料查阅的好工具 建立代码片段数据库...
- Vivado 查看HLS生成IP的资源和最高频率
- cc9.3 indesign_Adobe InDesign CC2019
- 系统保留分区删除_什么是系统保留分区,您可以删除它吗?
- 清除壁垒 大数据推动城市规划质突破
- 手写一个java爬虫,获取网页信息。
- 465端口发邮件php,在centos上打开端口465 for smtp的问题
- Ant Design Pro V4下载运行
- php firebase/php-jwt token验证
- PDF文件可以修改吗?来看看这几种方法
- 什么是RFID固定资产管理系统
- tomcat之 热部署
- pythonseo教程视频-python seo(seo教程)
热门文章
- 浙江大学计算机学院 00级,浙江大学教师划分为13个等级
- EBS FOLDER文件夹报:FRM-41045和FRM-40105
- how2j学习_第一部分_JAVA基础
- 微信公众号ios端,滚动条不隐藏解决办法其中之一
- Phonopy-Spectroscopy计算材料红外和Raman光谱
- (附源码)SSM仓库管理系统 毕业设计 061015
- cocos creator 制作作砸金蛋
- excel如何批量完成员工身份证实名认证?
- 架构师成长记_第八周_04_ES-head 与 postman基于索引的基本操作
- c# 文章分享微信朋友圈自定义标题、摘要、缩略图