爬取练习:

案例:表情包网站

先查看具体网页进行分析:


可以看到表情包下还有具体的页面,也就是我们想要爬取的表情了

爬取思路:1.爬取具体表情包下的图片——》2.进行封装后在爬取整个页面——》3.再次封装后爬取所有页面

下面展示一些 代码

import os
import requests
from fake_useragent import UserAgent
from lxml import etree
#随机请求头
ua = UserAgent()
head = {'user-agent': ua.chrome
}
#具体表情包页面爬取,进行封装,后面爬取整个页面
def xiangqing(url,mulu):#地址url = url#请求response = requests.get(url, headers=head).content.decode('utf-8')#解析html1 = etree.HTML(response)#定位,定位的照片地址为:src="/tp/Photo7/ZJBQ/20105/201005311507104129.gif",后面需要进行处理一下imgs = html1.xpath("//p//img/@src")#创建空列表,后面处理照片地址和照片名称用img = []numbeers = []#保存的目录mulu =mulu#创建文件夹,进行判断一下是否存在if not os.path.exists(mulu):os.mkdir(mulu)#对定位的表情包进行处理for i in imgs:img.append('https://qq.yh31.com' + i)#对表情包的名称进行处理for i in range(1, len(img) + 1):numbeers.append(i)print('+++++++++++++++++++++++++++++地址:' + str(url) + '开始下载+++++++++++++++++++++++++++++')#循环爬取表情包for a, b in zip(img, numbeers):responses = requests.get(a, headers=head)#请求下载name = str(b) + '.gif'#表情包名称加后缀with open(mulu + "/" + name, 'wb') as f:#保存到对应的文件夹f.write(responses.content)print('正在下载第' + str(b) + '张图片----------------')print('+++++++++++++++++++++++++++++地址:' + str(url) + '下载完成+++++++++++++++++++++++++++++')
#表情包第一页爬取所有,进行封装,后面爬取所有页面用
def QQbiaoqing(number):#地址url = 'https://qq.yh31.com/zjbq/List_'+str(number)+'.html'#发起请求response = requests.get(url, headers=head).content.decode('utf-8')html = etree.HTML(response)#定位表情包地址,后面左右具体表情包的请求urlhref = html.xpath("//div[@class='zj_tp']/a/@href")#表情包的名称,后面作为文件夹名称使用name = html.xpath("//div[@class='zj_tp']/a/img/@alt")#一级和二级文件夹mulu = 'QQ表情图片'mulu1 = []# 创建一级目录if not os.path.exists(mulu):os.mkdir(mulu)# 创建二级目录for i in name:mulu1.append(mulu + '/' + i)if not os.path.exists(mulu + '/' + i):os.mkdir(mulu + '/' + i)#调用xiangqing()进行循环请求保存,保存到各自的文件夹中for a, b in zip(href, mulu1):xiangqing(a,b)#下载一页的所有表情
for i in range(1,2):print('第'+str(i)+'页开始下载------------------------------------')QQbiaoqing(i)print('第'+str(i)+'页下载完成------------------------------------')

效果图:

python爬虫5:批量爬取照片到对应的文件夹中相关推荐

  1. Python爬虫:批量爬取变形金刚图片,下载保存到本地。

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文文章来自:CSDN 作者:Guapifang 其实和爬取普通数据本质一样,不过 ...

  2. Python爬虫系列:爬取小说并写入txt文件

    导语: 哈喽,哈喽~都说手机自带的浏览器是看小说最好的一个APP,不须要下载任何软件,直接百度就ok了. 但是小编还是想说,如果没有网,度娘还是度娘吗?能把小说下载成一个.txt文件看不是更香吗?这能 ...

  3. Python爬虫学习之爬取豆瓣音乐Top250存入Excel表格中

    前言 目标网站:https://music.douban.com/top250 任务: 爬取豆瓣音乐Top250的歌曲名 爬取豆瓣音乐Top250的歌曲对应的表演者.发行时间和音乐流派(分别对应下图斜 ...

  4. Python爬虫项目--批量爬取公司债券平台网公司信息并下载PDF

    # 下载公司债券平台项目PDF信息 08年6月 合起来67页数据import os import time import requests from selenium import webdriver ...

  5. 【Python爬虫】从零开始爬取Sci-Hub上的论文(串行爬取)

    [Python爬虫]从零开始爬取Sci-Hub上的论文(串行爬取) 维护日志 项目简介 步骤与实践 STEP1 获取目标内容的列表 STEP2 利用开发者工具进行网页调研 2.1 提取文章链接和分页链 ...

  6. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...

  7. python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程

    python爬虫 requests+bs4爬取猫眼电影 傻瓜版教程 前言 一丶整体思路 二丶遇到的问题 三丶分析URL 四丶解析页面 五丶写入文件 六丶完整代码 七丶最后 前言 大家好我是墨绿 头顶总 ...

  8. python抓取文献关键信息,python爬虫——使用selenium爬取知网文献相关信息

    python爬虫--使用selenium爬取知网文献相关信息 写在前面: 本文章限于交流讨论,请不要使用文章的代码去攻击别人的服务器 如侵权联系作者删除 文中的错误已经修改过来了,谢谢各位爬友指出错误 ...

  9. python爬虫——用selenium爬取淘宝商品信息

    python爬虫--用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdriver.Chrome ...

最新文章

  1. 【重学Vue】数据响应原理真的是双向绑定吗?
  2. 识别强直性脊柱炎高效和疾病特定的基质改变
  3. php敏感字符串过滤_PHP代码审计入门:常见的危险函数和审计点
  4. php退出页面父元素,jQuery中弹出iframe内嵌页面元素到父页面并全屏化的实例代码...
  5. Codeforces 889C Maximum Element(DP + 计数)
  6. 偶然在网上看到的题目,jQuery功底如何一测便知晓!!!!!!
  7. 关于Eclipes的Logcat无法打印消息的解决办法
  8. mac nginx加载php 配置,Mac下Nginx安装环境配置详解
  9. postgresql中装gis插件_使用PostGIS_高级扩展插件使用_开发进阶_云原生数仓 AnalyticDB PostgreSQL - 阿里云...
  10. 使用nginx做反代时遇到413 Request Entity Too Large的解决方法
  11. JavaScript语言精粹(修订版)
  12. Synchronized与ReentrantLock区别总结(简单粗暴,一目了然)
  13. mysql生成百万条数据_mysql 快速生成百万条测试数据
  14. hdu 1754 I hate it (线段树)
  15. 此网站的安全证书有问题
  16. 新一配:文言文也能编程?该项目在GitHub摘得5500星
  17. 站内信设计文档及源代码下载
  18. JAVA的面向对象编程
  19. [MATLAB]层次分析法计算权重
  20. 23个经典营销创业案例,彻底颠覆你的营销思维

热门文章

  1. 云游戏能否终结下一代游戏主机?
  2. 在Unity创建模型的插件——UModeler V2.4(一、创建模型)
  3. 【go语言圣经】练习答案--第一章
  4. VideoCap Pro ActiveX控件,视频捕获和图像处理
  5. WebRTC用到的方法
  6. 仿美团app产品列表,用weui(bootstrap可去掉)写成
  7. Ubuntu系统下U盘设备的读取
  8. WIN10切换UOS系统
  9. 昨天的明天,也就是今天!
  10. 什么是web service?