如何采集微信公众号历史数据

本文将介绍一种通过模拟操作微信App的方式采集指定公众号的所有历史数据的方法。

通过抓包分析发现，微信公众号的历史数据是通过HTTP协议加载的，对应的API接口如下图所示，其中有四个关键参数（__biz、appmsg_token、pass_ticket以及Cookie）。

为了能够拿到这四个参数，需要模拟操作App，让其产生这些参数，然后再抓包获取。
需要模拟操作微信完成如下步骤：

启动微信App
点击"通讯录"
点击"公众号"
点击要采集的公众号
点击右上角的用户图像图标
点击"全部消息"

此时，我们可以从https://mp.weixin.qq.com/mp/profile_ext?action=home的应答数据中捕获__biz、appmsg_token以及pass_ticket三个关键参数，以及请求头中的Cookie值。如下图所示。

有了上述四个参数，我们就可以构造出获取历史文章列表的API请求，通过调用API接口直接获取数据（不需要再模拟App操作）。核心参数如下所示，通过改变offset参数，可以拿到所有历史数据。

view plaincopy to clipboardprint?

Cookie headers = {‘Cookie’: 'rewardsn=; wxtokenkey=777; wxuin=584068438; devicetype=android-19; version=26060736; lang=zh_CN;

pass_ticket=Rr8cO5c2******3tKGqe7aVZzV9TupvrK+1uHHmHYQGL2WFdKIE;
wap_sid2=COKhxu4KElxckFZQ3QzTHU4WThEUk0zcWdrZjhGcUdYdEVSV3Y1X2NPWHNUakRrd1ZzMnpLTERpdE5rbmxjSTg******dlRBcUNRazZpOGxTZUVEQUTgNQJVO’}
url = ‘https://mp.weixin.qq.com/mp/profile_ext?’ data = {}
data[‘is_ok’] = ‘1’ data[‘count’] = ‘10’ data[‘wxtoken’] = ‘’
data[‘f’] = ‘json’ data[‘scene’] = ‘124’ data[‘uin’] = ‘777’
data[‘key’] = ‘777’ data[‘offset’] = ‘0’ data[‘action’] = ‘getmsg’
data[‘x5’] = ‘0’

下面三个参数需要替换

https://mp.weixin.qq.com/mp/profile_ext?action=home应答数据里会暴漏这三个参数 data[’__biz’] = ‘MjM5MzQyOTM1OQ==’ data[‘appmsg_token’] =

‘993_V8%2BEmfVD7g%2FvMZ****4DNUJNFkg~~’ data[‘pass_ticket’] =
‘Rr8cO5c23ZngeQHRGy8E7gv*****pvrK+1uHHmHYQGL2WFdKIE’ url = url +
urllib.urlencode(data)

以"数字工厂"这个微信公众号为例，采集过程运行截图如下所示：

输出结果截图如下所示：

了解更多分析及数据抓取可查看：
http://cloud.yisurvey.com:9081//html/37be8794-b79e-4511-9d0a-81f082bac606.html
本文转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请联系我们删除处理。
特别说明：本文旨在技术交流，请勿将涉及的技术用于非法用途，否则一切后果自负。如果您觉得我们侵犯了您的合法权益，请联系我们予以处理。

如何采集微信公众号历史数据相关推荐

爬虫实战教程：采集微信公众号文章
一.场景简介 1.场景描述:通过搜狗采集微信公众号的文章 2.入口网址:https://weixin.sogou.com/weixin?type=1&s_from=input&quer ...
2020年7月最新，火车头批量采集微信公众号最近文章（包括实时更新）的方法及思路
火车头采集微信公众号,这是许多网站建设的小伙伴都想要的功能.这篇内容是我在2020年4月份写的,但今天到7月了,完全没有问题.费话不多说,直接上干货. 先说说我的需求: 抓取一批公众号,大概10个.监 ...
python公众号文章_python采集微信公众号文章
本文实例为大家分享了python采集微信公众号文章的具体代码,供大家参考,具体内容如下在python一个子目录里存2个文件,分别是:采集公众号文章.py和config.py. 代码如下: 1.采集公 ...
python爬取公众号_基于Python采集爬取微信公众号历史数据
鲲之鹏的技术人员将在本文介绍一种通过模拟操作微信App的方式采集指定公众号的所有历史数据的方法. 通过我们抓包分析发现,微信公众号的历史数据是通过HTTP协议加载的,对应的API接口如下图所示,其中有 ...
python采集微信公众号_Python爬虫，微信公众号文章采集工具
#微信公众号文章采集 import requests from lxml import etree import re import os def get_con(url): #url="h ...
用浏览器监控采集微信公众号最新文章
最近单位需要收集多个微信公众号的文章内容,手机上关注无法批量保存和导出文章.找了很久才发现搜狗可以搜索公众号,但每个公众号只显示一条最新的内容.于是就想到了使用软件不断循环监测采集的办法,每次出现新的 ...
微信公众号采集 php,如何采集微信公众号历史消息页
采集微信文章和采集网站内容一样,都需要从一个列表页开始.而微信文章的列表页就是公众号里的查看历史消息页.现在网络上的其它微信采集器有的是利用搜狗搜索,采集方式虽然简单多了,但是内容不全.所以我们还是要 ...
采集微信公众号文章只需几步（非搜狗微信）
我们先去下载采集微信文章软件或者百度"小蜜蜂公众号文章助手"下载最新版第一步:打开软件第二步:登录微信电脑版点击"公众号" 选择要采集的公众号点击右上角 ...
anyproxy批量自动采集微信公众号文章
我从2014年就开始做微信公众号内容的批量采集,最开始的目的是为了做一个html5的垃圾内容网站.当时垃圾站采集到的微信公众号的内容很容易在公众号里面传播.当时批量采集特别好做,采集入口是公众号的历史 ...

如何采集微信公众号历史数据

Cookie headers = {‘Cookie’: 'rewardsn=; wxtokenkey=777; wxuin=584068438; devicetype=android-19; version=26060736; lang=zh_CN;

下面三个参数需要替换

https://mp.weixin.qq.com/mp/profile_ext?action=home应答数据里会暴漏这三个参数 data[’__biz’] = ‘MjM5MzQyOTM1OQ==’ data[‘appmsg_token’] =

如何采集微信公众号历史数据相关推荐

最新文章

热门文章