requests库和lxml库爬取彼岸图网的图片


```python
import requests,os
from lxml import etree# 创建对应的存储的文件夹
if(not os.path.exists('./彼岸图网图片')):os.makedirs('./彼岸图网图片')# 加上一些伪装
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
}
# 分析各自页的url的关系
# https://pic.netbian.com/  第一页
# https://pic.netbian.com/index_2.html 第二页
# https://pic.netbian.com/index_3.html 第三页# 爬取10页的图片内容
for i in range(1,11):if i == 1:url = 'https://pic.netbian.com/'else:url = f'https://pic.netbian.com/index_{i}.html'# 获取返回对象response = requests.get(url=url, headers=headers)response.encoding = 'gbk'# 打印请求头信息# print(response.headers)# 打印状态码# print(response.status_code)# 获取网页内容   response.content 返回的是bytes型也就是二进制的数据 返回字节流 b'...'# content = response.content# print(content)# print('*****************')# 返回的是Unicode型的数据text = response.text# 调用HTML类进行初始化html = etree.HTML(text)# 这个获取的是预览缩略的小图# 获取对应属性、节点下面的值# # 获取图片名称img_title_list = html.xpath('//ul[@class="clearfix"]/li/a//img/@alt')# # 获取图片地址# img_src_list = html.xpath('//ul[@class="clearfix"]/li/a//img/@src')# 如何获取大图# 先获取对应图片跳转的链接img_a_list = html.xpath('//ul[@class="clearfix"]/li/a/@href')img_src_list = []for i in range(0,len(img_a_list)):# 加上前面的域名 https://pic.netbian.com/img_a = 'https://pic.netbian.com/' + img_a_list[i]# // a[ @ id = 'img'] / img / @ srcnew_html = etree.HTML(requests.get(img_a).text)img_src_list.append(new_html.xpath('//a[@id="img"]/img/@src')[0])# print(img_src_list)for i in range(0,len(img_title_list)):img_title = img_title_list[i]# 加上前面的域名 https://pic.netbian.com/img_src = 'https://pic.netbian.com/' + img_src_list[i]# 获取图片的后缀名img_suffix = img_src.split('.')[-1]# 请求图片地址img_r = requests.get(img_src)try:# wb: 以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在，创建新文件。with open('./彼岸图网图片/'+img_title+'.'+img_suffix,'wb') as f:f.write(img_r.content)print(f'{img_title}下载成功')except Exception as e:print(e)print('f{img_title}下载失败')

requests库和lxml库爬取彼岸图网的图片相关推荐

爬取彼岸图网4k图片
爬取彼岸图网高清美女图片代码如下
Python新手爬虫训练小项目《爬取彼岸图网》（超详细讲解版）
Python新手爬虫训练小项目<爬取彼岸图网>(超详细讲解版) 这是我的第一篇文章,作为一名新手爬虫,这个算是我这几天来的努力成果,虽然代码寥寥几行但花费了大半天,新手上路还是不能只看视频 ...
[ Python ] 爬虫类库学习之 xpath，爬取彼岸图网的小姐姐图片
安装:pip install lxml 实例化一个etree对象 from lxml import etree 1.将本地的html文档中的源码数据加载到etree对象中 etree.parse(fi ...
用Python爬取彼岸图网图片
用Python爬取彼岸图网图片 *使用了四个模块 import time import requests from lxml import etree import os 没有的话自行百度安装. ...
python爬虫爬取彼岸图网图片
python爬虫爬取彼岸图网图片话不多说,直接上代码! import requests from PIL import Image from io import BytesIO import re ...
Python网络爬虫8 - 爬取彼岸图网美图
彼岸图网收集了大量美图,是个不错的爬取对象.话不多说,直接上图. 分析站点分类列表爬取之前,自然要分析一波,这个站点的框架比较简单,从分类着手,共包含12个分类项. 4K人物 4K动漫 4K动物 ...
使用python爬取斗图网的图片
使用python爬取斗图网的图片以下是代码部分: # -*- coding: utf-8 -*- """ Created on Wed Apr 14 14:41:42 ...
大批量爬取彼岸图网内容遇到的问题
用多进程配套多进程短时间大量爬取图网25000张图. 问题:出现程序无结果不出问题也不报错,正常结束的异常,经多方检查调试. 原因:彼岸图网cookie隔30min刷新一次,用旧的cookie爬第一级 ...
【爬虫】关于爬取彼岸图网4K壁纸的分析
目标地址网络绝大部分所爬取的壁纸URL类似这样: https://pic.netbian.com/uploads/allimg/180315/110404-1521083044b19d.jpg 然而 ...

requests库和lxml库爬取彼岸图网的图片

requests库和lxml库爬取彼岸图网的图片相关推荐

最新文章

热门文章