python爬虫5：批量爬取照片到对应的文件夹中

爬取练习：

案例：表情包网站

先查看具体网页进行分析：

可以看到表情包下还有具体的页面，也就是我们想要爬取的表情了

爬取思路：1.爬取具体表情包下的图片——》2.进行封装后在爬取整个页面——》3.再次封装后爬取所有页面

下面展示一些 代码：

import os
import requests
from fake_useragent import UserAgent
from lxml import etree
#随机请求头
ua = UserAgent()
head = {'user-agent': ua.chrome
}
#具体表情包页面爬取，进行封装，后面爬取整个页面
def xiangqing(url,mulu):#地址url = url#请求response = requests.get(url, headers=head).content.decode('utf-8')#解析html1 = etree.HTML(response)#定位，定位的照片地址为：src="/tp/Photo7/ZJBQ/20105/201005311507104129.gif"，后面需要进行处理一下imgs = html1.xpath("//p//img/@src")#创建空列表，后面处理照片地址和照片名称用img = []numbeers = []#保存的目录mulu =mulu#创建文件夹，进行判断一下是否存在if not os.path.exists(mulu):os.mkdir(mulu)#对定位的表情包进行处理for i in imgs:img.append('https://qq.yh31.com' + i)#对表情包的名称进行处理for i in range(1, len(img) + 1):numbeers.append(i)print('+++++++++++++++++++++++++++++地址：' + str(url) + '开始下载+++++++++++++++++++++++++++++')#循环爬取表情包for a, b in zip(img, numbeers):responses = requests.get(a, headers=head)#请求下载name = str(b) + '.gif'#表情包名称加后缀with open(mulu + "/" + name, 'wb') as f:#保存到对应的文件夹f.write(responses.content)print('正在下载第' + str(b) + '张图片----------------')print('+++++++++++++++++++++++++++++地址：' + str(url) + '下载完成+++++++++++++++++++++++++++++')
#表情包第一页爬取所有，进行封装，后面爬取所有页面用
def QQbiaoqing(number):#地址url = 'https://qq.yh31.com/zjbq/List_'+str(number)+'.html'#发起请求response = requests.get(url, headers=head).content.decode('utf-8')html = etree.HTML(response)#定位表情包地址，后面左右具体表情包的请求urlhref = html.xpath("//div[@class='zj_tp']/a/@href")#表情包的名称，后面作为文件夹名称使用name = html.xpath("//div[@class='zj_tp']/a/img/@alt")#一级和二级文件夹mulu = 'QQ表情图片'mulu1 = []# 创建一级目录if not os.path.exists(mulu):os.mkdir(mulu)# 创建二级目录for i in name:mulu1.append(mulu + '/' + i)if not os.path.exists(mulu + '/' + i):os.mkdir(mulu + '/' + i)#调用xiangqing()进行循环请求保存,保存到各自的文件夹中for a, b in zip(href, mulu1):xiangqing(a,b)#下载一页的所有表情
for i in range(1,2):print('第'+str(i)+'页开始下载------------------------------------')QQbiaoqing(i)print('第'+str(i)+'页下载完成------------------------------------')

效果图：

python爬虫5：批量爬取照片到对应的文件夹中相关推荐

Python爬虫：批量爬取变形金刚图片，下载保存到本地。
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理本文文章来自:CSDN 作者:Guapifang 其实和爬取普通数据本质一样,不过 ...
Python爬虫系列：爬取小说并写入txt文件
导语: 哈喽,哈喽~都说手机自带的浏览器是看小说最好的一个APP,不须要下载任何软件,直接百度就ok了. 但是小编还是想说,如果没有网,度娘还是度娘吗?能把小说下载成一个.txt文件看不是更香吗?这能 ...
Python爬虫学习之爬取豆瓣音乐Top250存入Excel表格中
前言目标网站:https://music.douban.com/top250 任务: 爬取豆瓣音乐Top250的歌曲名爬取豆瓣音乐Top250的歌曲对应的表演者.发行时间和音乐流派(分别对应下图斜 ...
Python爬虫项目--批量爬取公司债券平台网公司信息并下载PDF
# 下载公司债券平台项目PDF信息 08年6月合起来67页数据import os import time import requests from selenium import webdriver ...
【Python爬虫】从零开始爬取Sci-Hub上的论文(串行爬取)
[Python爬虫]从零开始爬取Sci-Hub上的论文(串行爬取) 维护日志项目简介步骤与实践 STEP1 获取目标内容的列表 STEP2 利用开发者工具进行网页调研 2.1 提取文章链接和分页链 ...
[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（四） —— 应对反爬技术（选取 User-Agent、添加 IP代理池以及Cookies池）
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...
python爬虫 requests+bs4爬取猫眼电影傻瓜版教程
python爬虫 requests+bs4爬取猫眼电影傻瓜版教程前言一丶整体思路二丶遇到的问题三丶分析URL 四丶解析页面五丶写入文件六丶完整代码七丶最后前言大家好我是墨绿头顶总 ...
python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息
python爬虫--使用selenium爬取知网文献相关信息写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器如侵权联系作者删除文中的错误已经修改过来了,谢谢各位爬友指出错误 ...
python爬虫——用selenium爬取淘宝商品信息
python爬虫--用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdriver.Chrome ...

python爬虫5：批量爬取照片到对应的文件夹中

爬取练习：

python爬虫5：批量爬取照片到对应的文件夹中相关推荐

最新文章

热门文章