本文首发于公众号「Python知识圈」,如需转载,请在公众号联系作者授权。

2019年发现两个有意思而且内容比较硬核的公众号。都是同一个人运营的,我们都叫他半佛老师,现实中的职业是风控,公众号内容涉及揭秘灰产的一些坑和硬核科普。文章内容硬核外,再配上大量的沙雕表情包。让整个文章非常有趣。不到一年,两个公众号,每篇文章都有10w+ 的阅读量。19 年年底。半佛老师入驻了 B 站。制作的 B 站视频文案上也和公众号文章一样硬核,配上大量的沙雕表情包。让看视频的读者有时候看着表情包在那里傻笑(包括我),目前 B 站 327 万粉,相当的硬核。

就这样,每天有大量的读者在半佛老师的公众号和 B 站之间来回横向跳动。

说了这么多,今天这篇文章不是给半佛老师打广告的。我仅仅只是我馋他的表情包了。所以今天我用爬虫批量的保存半佛老师公众号文章里面所有的沙雕表情包。

周末在 B 站发了一个保存半佛老师的骚表情包的视频,目前播放量 12万,8000+点赞,大家可以点击文末「阅读原文」直达视频页面。

半佛老师有两个公众号。据我观察,仙人jump 公众号的表情包相对来说多一些。所以今天就以这个公众号为目标。来批量保存里面的沙雕图片或者表情包。

单篇文章表情包爬取

首先。我们要学会爬取一篇文章里面所有的表情包或者图片。比如我们指定一篇文章,打开文章,查看页面源代码。

通过简单查找,我们就可以看到。文章的图片都在date-src后面。

我们用正则表达式去提取这些链接。所有的链接都提取出来,以列表的形式返回。

然后我们需要写一个下载图片的方法。

这样我们用一个for循环就可以把这篇文章里面所有的表情包或者图片全部下载下来了。

所有文章表情包爬取

接下来第2步。我们是需要保存一个公众号所有文章里面所有的表情包或者图片,所以这一步我们需要获取这个公众号所有文章的链接地址。之前我也写过一篇文章,将一个公众号里面所有文章的链接和标题全部爬取下来:拒绝低效!Python教你爬虫公众号文章和链接

我们通过 Charles 抓包,直接抓取电脑 PC 端公众号。

我们通过上滑公众号历史文章,在抓取的链接里面我们可以看到请求和具体的返回数据。它的返回是以 Json 信息的形式。文章的链接就在 Json 信息里面。

这个 Json 看不全,我们复制到在线 json 解析工具里转换一下。

分析请求数据我们发现。链接里面除了 offset 是变化的,其他都是不变的。

用 requests 库请求链接的话,我们是需要给出 headers 信息和 cookies 信息的,笨办法的话,我们可以手动在请求头 Headers 里面找,然后复制过来。这里教大家一个非常简单的方法,我们直接右键,选择 Copy Curl Request。

复制完之后,我们放在转换地址里面。

https://curl.trillworks.com/

在左边粘贴刚才复制的 curl request,下面的语言默认是 Python。右边就会同步转换为 Python requests。

我们把右边的 Python requests 直接复制到编辑器里面就可以了。内容包括 hearders 信息和 cookies 信息,还有对应的参数,这样就避免我们对 cookies 和 headers 一个个去粘复制粘贴。这样是不是比较方便和简单!

这里有个地方注意下,复制过来的 params 里面有两个值需要去掉,offset 和 count。

因为 offset 我需要把它做成动态的,我把它们放在了开头的基础链接里。

通过 requests 库请求我们就可以获取返回的 Json 信息。然后我们提取 Json 信息里面的文章链接,为了全部获取所有文章。offset 值我们需要放在 range 里面,以 10 的步数往上增长, offset 最大值是多少呢?我们可以通过抓包获取,把公众号文章一直上滑到底,也就是滑动公众号的第 1 篇文章,我们点击这个请求,就可以看到里面的offset值。

把这个值放在 range 值里。

这样的话,这个公众号所有的文章链接,我都以列表的形式返回。返回给之前第 1 步操作的爬取单篇文章所有图片。通过两个循环,公众号下面所有文章里面的所有表情包或者图片都可以批量下载下来。

这样,虽然我没有半佛老师任何的文案,但是我有他硬核而且沙雕的表情包。

总结下:

1、运行代码前抓包通过 Copy Curl Request 到转换工具里获取 headers、cookies、和 params 替换掉我代码中的 headers 相关信息,并把 params 中 offset 和 count 去掉。

2、代码请求里加了代理ip proxy,如果运行报 pxoxy 相关的错,请自行去西刺代理ip更换一个(https://www.xicidaili.com/)免费的。

3、点击阅读原文直达这个项目的 B 站视频版,目前 12万播放量了,有账号的伙伴来个三连加关注啊。

在本公众号后台回复「表情包」获取本文所有的代码。

欢迎关注公众号「Python知识圈」,公众号后台回复关键字,获取更多干货。

回复「英语」:送你英语 7000 单词速记法,亲测非常有效。

回复「编程」:免费获赠2019最新编程资料,认真学完BAT offer 拿到手软。

回复「赚钱」:领取简单可实操的 36 个赚钱的小项目,每天多赚100块零花钱。

python灰产_我用Python一键保存了半佛老师所有的骚气表情包相关推荐

  1. 学习python表情包_我用Python一键保存了半佛老师所有的骚气表情包

    本文首发于公众号「Python知识圈」,如需转载,请在公众号联系作者授权. 2019年发现两个有意思而且内容比较硬核的公众号.都是同一个人运营的,我们都叫他半佛老师,现实中的职业是风控,公众号内容涉及 ...

  2. python从入门到入土表情包-我用Python一键保存了半佛老师所有的骚气表情包

    本文首发于公众号「Python知识圈」,如需转载,请在公众号联系作者授权. 2019年发现两个有意思而且内容比较硬核的公众号.都是同一个人运营的,我们都叫他半佛老师,现实中的职业是风控,公众号内容涉及 ...

  3. python保存表情包_用Python一键保存半佛仙人所有的骚气表情包

    阅读文本大概需要 3 分钟 出处:Python知识圈 作者:pk哥 2019年发现两个有意思而且内容比较硬核的公众号.都是同一个人运营的,我们都叫他半佛老师,现实中的职业是风控,公众号内容涉及揭秘灰产 ...

  4. 用Python一键保存半佛仙人所有的骚气表情包

    阅读文本大概需要 3 分钟 出处:Python知识圈 作者:pk哥 2019年发现两个有意思而且内容比较硬核的公众号.都是同一个人运营的,我们都叫他半佛老师,现实中的职业是风控,公众号内容涉及揭秘灰产 ...

  5. python骚气表情包_火爆全网!这个 Python 项目很骚气!

    点击上方Python知识圈,选择设为星标 回复1024获取Python资料 本文转自量子位,作者郭一璞 阅读文本大概需要 5 分钟 点击「阅读原文」查看pk哥原创精品视频.像文字云一样,用各种小图拼出 ...

  6. Python灰帽子_黑客与逆向工程师的Python编程之道

    收藏自用 链接:Python灰帽子_黑客与逆向工程师的Python编程之道

  7. 【python】半佛老师的表情包是怎么爬的?

    背景 听半佛老师说他的表情包是爬的,有点好奇是怎么爬的?由此有了这篇文章. 我调研了几个表情包的网站,最后以斗图网为例https://www.doutula.com/photo/list/爬取网站上的 ...

  8. python爬虫灰产_「docker实战篇」python的docker爬虫技术-在linux下mitmproxy介绍和安装(四)...

    上次说了fiddler的抓包和参数介绍,通过fiddler抓包工具可以完成app和web端的数据,这次介绍另一款抓包公司mitmproxy,可以和python语言结合通过爬虫抓取数据. 源码:http ...

  9. python灰产_Python学习一周有感

    从业至今,搞互联网将近7年了,如今,就连和我大学一个系的媳妇儿,都已经忘记了我是学工商管理的,每次聊天谈起来,都会用她那迷茫的眼神看着我:"你不是学计算机专业的吗?" 大学毕业,进 ...

最新文章

  1. linux LANG变量 定义系统的主语系环境
  2. python语言模型工具_Python工具整合,为程序员和新手准备的 8 大 Python 工具
  3. 【问题收集·中级】关于XMPP使用Base传送图片
  4. 【Android 高性能音频】AAudio 音频流 PCM 采样 的 采样 缓冲 播放 的 连续机制 ( 数据回调机制 | 数据回调函数指针 | 实现数据回调函数 | 设置数据回调函数 )
  5. 【学术相关】IEEE TBD, 这个Trans刚被SCI收录,预计首个IF4
  6. Linux上跑程序加大内存
  7. 预定义变量$_SERVER
  8. 必 备 习 题 集 (五)
  9. 【渝粤教育】国家开放大学2018年春季 7392-21DMatlab语言及其应用 参考试题
  10. VAssistX使用总结
  11. 计算机三级考试 信息安全,计算机三级考试《信息安全技术》练习题及答案
  12. 北京玉渊潭公园第二十届樱花节
  13. 信管大学计算机操作系统考试试题,武汉理工大学信管操作系统模拟试题及参考答案...
  14. quartus 13.0 网络盛传的破解方法勘误(网传大多数破解步骤有误)
  15. Python 图像处理OpenCV:直方图均衡化(笔记)
  16. 解决数字和英文字母结合检索出现高亮重复问题
  17. python中的copy()与deepcopy()
  18. 湿法冶金以及铼提取工艺,湿法冶金工艺特点及工艺流程
  19. 3 OpenCV 车牌识别-2 颜色定位
  20. CentOS 7 配置国内镜像源

热门文章

  1. zynq+ad9361 petalinux使用官方IIO示波器调试记录
  2. 阿里新一代Rank技术
  3. 动态规划之背包问题——01背包
  4. Hadoop常见面试题(一)
  5. js替换数字的后五位为0
  6. echarts饼状图环形中间动态文字
  7. Vue3基础安装教程
  8. zabbix自定义监控项-统计AP在线、离线数量(AC:H3C WX5540H)
  9. 黑马全套Java教程(十一)
  10. XMR下的单CPU算力图,可用作当前2021年CPU算力的参考排名