之前教过大家如何爬取手机APP数据【以某乎为实战案例,教你用Python爬取手机App数据】

思路:主要是通过手机设置代理,然后在pc端开启抓包工具获取数据包,然后在编写python代码(get方式)去请求数据

上次有粉丝说,那个是ios手机安卓手机现在需要root权限才可以安装证书,那么今天就不以手机为例,以电脑PC端为例,这样大家都可以上手尝试

今天教大家抓到post数据包之后,怎么编写python代码去狗仔构造数据包,这里以获取『微信公众号』文章的阅读数点赞数在看数为例进行讲解(之所以以这个例子,主要还是有点难度的,所以给大家分享一下这个技术)

1、抓包工具

同样,这里还是使用Fiddler

为什么要用抓包工具,不直接复制文章链接在浏览器里面采集?

因为在浏览器里面打开看不到阅读数点赞数、在看数等

所以这里采用抓包的方式

1.配置Fiddler

端口设置为8888

这里设置一下过滤域名,目的是只查看需要查看的域名数据包

2.安装证书

点击第一个可以在pc机上安装证书,Fiddler就可以抓取https数据包

2、pc端代理

在设置-代理,里面设置相应的ip和端口(这里ip是本机ip127.0.0.1,和fiddler中对应的端口)

下面就可以开始抓包

3、开始抓包

在pc机上打开微信公众号文章,比如

打开之后再Fiddler可以看到数据包

比如原文中阅读数:576、点赞:20、在看:5

对应数据包返回的json数据

4、编程构造Post请求

抓到数据包之后,我们可以知道cookie、表单,请求链接等信息

开始编写代码之前,先给大家说一下,大概需要用到哪些数据(表单里面有很多参数,但是大部分是不需要的),蓝色选中的就是需要的参数,其他的可以忽略

请求头(这里替换cookie),User-Agent是模拟手机浏览器

# 目标url
origin_url= "http://mp.weixin.qq.com/mp/getappmsgext"headers = {"Cookie": yourcookie,"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 MicroMessenger/6.5.2.501 NetType/WIFI WindowsWechat QBCore/3.43.27.400 QQBrowser/9.0.2524.400"
}

这里是请求需要的其中三个参数(这个三个数通用的,可以不用改)

data = {"is_only_read": "1","is_temp_url": "0","appmsg_type": "9", # 新参数,不加入无法获取like_num
}

剩下的其他参数(每个参数配备了相应的说明)

###同一个公众号,这个不变
your__biz =""
###每一篇文章mid都不同
article_mid=""
###每一篇文章sn都不同
article_sn=""
###不变
article_idx="1"
###几十分钟有效,之后需要再次抓包更新
yourappmsg_token="1108_eNbZz5PR1hNkY3Duto6YbmYgGkvHMZaVbiPUGLsS53iccow77rh73HxzFPHQby1-Lw8AqItVlg_d96MU"

构造请求

​​​​​​​
origin_url = "https://mp.weixin.qq.com/mp/getappmsgext?"
appmsgext_url = origin_url + "__biz={}&mid={}&sn={}&idx={}&appmsg_token={}&x5=1".format(your__biz, article_mid, article_sn, article_idx, yourappmsg_token)
content = requests.post(appmsgext_url, headers=headers, data=data).json()print(content)
print(content["appmsgstat"]["read_num"], content["appmsgstat"]["old_like_num"],content["appmsgstat"]["like_num"])

可以看到已经成功发送post成功,并且提取出对应的阅读数、点赞数、在看数

5、扩展

同一个公众号,如果需要获取其他文章的这些数据,只需要改变mid和sn就可以了,不同文章的链接如下图所示

6、小结

本文讲解了如何爬取PC端数据(以微信公众号为例),过程很详细,满满干货,希望可以起到抛砖引玉效果,让大家学到更多技术!

推荐阅读

手把手教你实现『B站直播』弹幕实时分析

以『B站直播』为例,实现数据『实时』可视化分析

Flask结合ECharts实现在线可视化效果,超级详细!

python实时采集直播弹幕数据进行可视化展示

公众号后台添加微信,可领取代码

​​​​​​​

以『公众号』为例,手把手教你爬取PC端数据相关推荐

  1. 手把手教你爬取PC端『某酷视频』个人历史播放数据,并可视化展示

    大家好,我是阿辰,今天手把手教你爬取PC端『某酷视频』个人历史播放数据,并可视化展示 上次有粉丝说,那个是ios手机,安卓手机现在需要root权限才可以安装证书,那么今天就不以手机为例,以电脑PC端为 ...

  2. 【爬虫】Yhen手把手教你爬取表情包,让你成为斗图界最靓的仔!

    以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,转载请说明出处,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/art ...

  3. python 批量下载网页图片_手把手教你爬取天堂网1920*1080大图片(批量下载)——实战篇|python基础教程|python入门|python教程...

    https://www.xin3721.com/eschool/pythonxin3721/ /1 前言/ 上篇文章 手把手教你爬取天堂网1920*1080大图片(批量下载)--理论篇我们谈及了天堂网 ...

  4. 手把手教你爬取清纯小姐姐私房照,小孩子写学

    手把手教你爬取清纯小姐姐私房照,小孩子写学 先上效果图 头文件: 因为爬虫需要用到请求网络部分,所以需要这两个包,没有的话自行下载即可.这个可以直接用pip安装.如果连pip都不懂,那就只能学习一下p ...

  5. 如何制作新年公众号封面图?手把手教你在线编辑图片

    制作公众号封面图是让每个新媒体小编都很头大,但是却不得不做的事情.往往我们将大部分的时间都浪费在了找素材.做图上.那么,有没有什么可以直接套用图片模板制作图片的方法呢?下面,给大家推荐一款**照片编辑 ...

  6. 如何用python爬取公众号文章搜狗微信搜索_python如何爬取搜狗微信公众号文章永久链接的思路解析...

    这篇文章主要介绍了python如何爬取搜狗微信公众号文章永久链接的思路解析 ,小编觉得挺不错的,现在分享给大家,也给大家做个参考.一起跟随小编过来看看吧. 本文主要讲解思路,代码部分请自行解决搜狗微信 ...

  7. python 微信公众号发文章_如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

  8. 怎么批量在数字里加入网页_手把手教你爬取天堂网1920*1080大图片(批量下载)——理论篇

    /1 前言/ 平时我们要下载图片,要要一个一个点击下载是不是觉得很麻烦?那有没有更加简便的方法呢?答案是肯定的,这里我们以天堂网为例,批量下载天堂网的图片. /2 项目准备工作/ 首先 我们第一步我们 ...

  9. Python 手把手教你爬取淘宝的笔记本电脑数据

      如果觉得文章写得好,如果你想要获取本文的所有数据,请关注公众号:[数据分析与统计学之美],添加作者[个人微信],进群和作者交流! 目录   1.selenium模块的安装与chromedriver ...

最新文章

  1. FastDFS + Nginx代理方式访问
  2. java if 没有_java – 如何做一个决定没有if语句
  3. 【科研绘图】Visio保存为PDF时去掉黑框
  4. Linux学习之系统编程篇:IPC 和管道的基本概念及管道的创建
  5. (素材源代码) 猫猫学iOS 之UIDynamic重力、弹性碰撞吸附等现象牛逼Demo
  6. 如何使用matlab得出pid控制参数值,基于MATLAB的PID控制器参数整定及仿真
  7. jQuery : ddSlick 自定义select下拉框 custom drop down with images and description.
  8. Linux ssh 允许 root用户 登录
  9. pytorch_图片分类_猫狗猴
  10. 将Nokia 6300 Firmware升级到5.5
  11. 视频教程-QT教程--入门实战视频精讲-C/C++
  12. 学习备忘英语单词转载
  13. telink 9xxx 系列V1.3开发板接线说明
  14. 【CSS】flex布局平分三等分中间间距相等且两端对齐
  15. 微信电脑端突然发送不了文件了
  16. WebShell连接工具(中国菜刀、WeBaCoo、Weevely)使用
  17. 嵌入式 C语言/C++ 常见笔试、面试题 难疑点汇总(经典100道)
  18. App 图标设计 - 圆角透明效果(0 基础使用 PS)
  19. 关注公众号+加微信群,和大家一起畅聊技术
  20. Gigaphoton供给最新版ArF受激准分子激光器GT65A

热门文章

  1. 自然语言处理技术及行业应用案例
  2. PHP 开启错误显示并设置错误报告级别
  3. 随身WiF刷机救砖+刷入debian系统即可安装宝塔面板
  4. 视频编解码之数字视频介绍
  5. 智能编曲软件中文版-Band in a Box 2019 + RealBand PC
  6. 渗透测试——bluecms安装及seay代码审计
  7. CNV学习2(illumina芯片分析CNV的主流软件------PennCNV)
  8. IT 人的纠结:去大公司还是去小公司?
  9. Android Stduio实现一个天气预报APP
  10. 基于php的在线问卷调查系统-计算机毕业设计