Python新手实战爬取表情包

前言

如有错误,
还望大佬们斧正。
谢谢!
我是一个Python小白.
如有错误还请见谅.
本文是Python 爬取表情包
适合新手.
代码还有很多可以改进的地方.
本次要用到的库:①requests②os③re
查了一下发现OS是Python内置的库,
re也是Python的标准库,不需要pip下载
我个沙雕

注:转载注明出处,侵权将按相关法律处理

前期准备

  1. 安装Python 开发环境 3X系列
  2. win + R 打开运行,输入cmd,输入python,进行验证是否安装Python
  3. win + R 打开运行,输入cmd,输入pip install requests
  4. 爬取目标

开始工作:

进入目标网站
https://qq.yh31.com/zjbq/0551964.html

进入目标网站,按下F12打开开发者工具


得到

  1. 图片地址(不完整):/tp/zjbq/201903271348331856.gif
  2. 自己浏览器UA:User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36

代码

'''作者:血饮功能:爬取指定网页表情包时间:2020.02.20
'''
import requests
import os
import retarget_url = "https://qq.yh31.com/zjbq/0551964.html"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36"
}

然后获取网页源代码
UA用于反反爬,模拟自己的请求是由浏览器说发出
Python获取源代码,会是由b开头的一串让人看不到的东西,所以我们要进行解码

source_code = requests.get(target_url,headers=headers).content.decode("utf-8")



然后使用正则获取图片链接

这里可以看到直接使用会出现一些不是我们想要的表情包的gif图片
然后我们对比发现
1

<img src="/tp/zjbq/201903271348331856.gif" />

2

<img src="/images/ontop3.gif" alt="热门图片">

他们区别在于后面有没有 /
所以我们需要的用的正则为

regex_1 = r'img[\s]+src="(.*?\.gif)"[\s]+/'
xueyin = re.compile(regex_1)
get_img_url = re.findall(xueyin,source_code)

取得一段长长的不完整的图片链接
[’/tp/zjbq/201903271348331856.gif’, '/tp/zj
省略号

我们所得到的是列表格式的
对以下代码进行解析
用os进行获取本目录的位置
将列表形式按每行输出
然后将链接变成真正图片所在的完整链接
获取图片名称
获取要输出图片的具体位置
获取字节形式的图片
打开输出目录输出图片

path = os.getcwd()
for x in get_img_url:x = "https://qq.yh31.com/" + xfile_name = x.split("/")[-1]file_path = path +"\\"+file_nameresponse = requests.get(x,headers=headers)with open(file_path, "wb") as f:f.write(response.content)
print("完成")

还有一些表情包是以jpg格式的图片的
就不说了,方法类似上面

最后得到

'''作者:血饮功能:爬取制定网页表情包时间:2020.02.20
'''
import requests
import os
import retarget_url = "https://qq.yh31.com/zjbq/0551964.html"headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"
}source_code = requests.get(target_url,headers=headers).content.decode("utf-8")regex_1 = r'img[\s]+src="(.*?\.gif)"[\s]+/'xueyin = re.compile(regex_1)get_img_url = re.findall(xueyin,source_code)path = os.getcwd()for x in get_img_url:x = "https://qq.yh31.com/" + xfile_name = x.split("/")[-1]file_path = path +"\\"+file_nameresponse = requests.get(x,headers=headers)with open(file_path, "wb") as f:f.write(response.content)
print("完成")
#转载请注明出处,侵权将按相关法律处理


个人博客BergeBlog

注:转载注明出处

Python新手实战爬取表情包相关推荐

  1. python之scrapy实战爬取表情包

    python之scrapy实战爬取表情包 前言:在之前我们学习了scrapy框架的基本使用,今天我们通过实战(爬取http://www.doutula.com的套图)来更加了解scrapy框架额使用, ...

  2. Python之selenium爬虫实战爬取表情包

    文章目录 前言 寻找目标 思路分析 步骤实现 爬取过程 实现效果 以下是全部代码 提示:以下是本篇文章正文内容,下面案例可供参考 前言 大家点进来看selenium操作,那么你应该知道 seleniu ...

  3. 我是斗图王之python爬取表情包

    最近在群里看到好多人在斗图,各式各样的,可是自己收藏里面却没有几个,于是就想着去网上找点资源.为了当上斗图王,就百度了些python教程,看着视频敲了些代码. 代码就不讲解了,因为毕竟是看着视频搞得, ...

  4. python爬表情包_教你用Python来爬取表情包网站的所有表情图片

    教你用Python来爬取表情包网站的所有表情图片 配置环境 安装Python 开发环境 3X系列 win + R 打开运行,输入cmd,输入python,进行验证是否安装Python win + R ...

  5. python爬取表情包,并下载到本地

    python爬取表情包 需求:爬取2页表情包,网址是:https://www.fabiaoqing.com/biaoqing 上代码 import requests # 数据请求模块 import p ...

  6. 教你用Python爬取表情包网站下的全部表情图片

    教你用Python爬取表情包网站下的全部表情图片 又是我啦~~~ 最近上网的时候老看到有人用Python爬取表情包,心痒痒自己也整了一个. 使用到的扩展库:BeautifulSoup, request ...

  7. python表情包语言_我是斗图王之python爬取表情包

    [Python] 纯文本查看 复制代码# -*- coding: utf-8 -*- ''' #intent : #Author :Michael Jack hu #start date : 2019 ...

  8. python表情包爬虫程序_Python网络爬虫7 - 爬取表情包

    为了逗女朋友开心,想找一堆表情包,那么作为一名程序员,自然是会想到用程序来完成这个事情,而Python爬虫就是一个非常好的方法. 我先找到了一个专门发布表情包的网站,就叫做 分析站点 为了不引起不适, ...

  9. Python爬虫爬取表情包+Autojs微信自动导入表情包脚本(附源码)

    废话不多说直接开始 Python爬取表情包 一.检查网页源码 发现可以找到图片地址,直接请求图片地址下载图片 二.打开开发者工具(F12) 通过xpath提取p标签下的img标签src属性为图片地址 ...

最新文章

  1. CTO多要会刷脸--
  2. [LintCode] 字符串查找
  3. 【企业管理】人力资源是CEO的第一工程
  4. 苹果7plus元件分布图_苹果iphone7 plus手机拆解全过程评测 iphone7 plus拆机图解教程...
  5. xmu 1254.异或求和
  6. 【渝粤教育】电大中专工程图学基础 (3)作业 题库
  7. 课时28.假链接(掌握)
  8. 带你一起一步步推理出RocketMQ的架构
  9. 面试题:什么叫2B树
  10. Vue导出excel文件
  11. python-jieba库
  12. 哪款软件可以测试网速上行,怎么测试自己宽带的上行速度(查询上下行宽带方法)...
  13. 如何修复iPhone、iPad 或 Mac 上的 AirDrop 连接问题?
  14. No rule to make target /opt/ros/kinetic/lib/liborocos-kdl.so.1.3.2问题解决
  15. 关于elasticsearch的一些问题总结
  16. 微信公众号监听手机返回键事件jssdk—wx.closeWindow
  17. mac 查看本机的IP地址
  18. 数据链路层---差错检测和纠正
  19. U²-Net:铅笔肖像画的生成
  20. 深度学习08 - 决策树

热门文章

  1. 戒烟20分钟-15年
  2. THREE + d3制作中国地图挤压(extrude)模型
  3. Python学习之---open操作+buffering缓冲区+上下文管理+StringIO和BytesIO
  4. Nginx代理缓冲proxy_buffering配置
  5. QTextEdit 寻找字符串文本并设置颜色
  6. Kd tree原理详解
  7. 懒人必备,4款匠心打造的国产软件,每一款都堪称珍品
  8. 21哈工程计算机考研经验贴
  9. GPT-4和ChatGPT效果对比,差别太大了
  10. php全局变量更改,PHP设置全局变量的方法