【分享】如何用Pytho抓取微信公众号文章(包括阅读数,点赞数)
本小白的第一篇技术分享博客,啊哈哈!!(石乐志)
真好,直接切入正题吧,目前来讲微信公众号文章主要有以下三种渠道可以获取,对应有三种抓取方式,如下~~
- 搜狗微信点击跳入,这算是对咱reptiler最友好的方式了(用requests+xpath就可以很轻松抓到),但是但是,点进去结果没有阅读量评论点赞等等关键要素,那还抓个屁@_@!!~~而且在不登录的情况下还是只能抓10篇而已嘛。我弱弱的试着抓了下,发现数据还是很好拿到的,不过没有代理的童鞋就是要费点心思了,因为你会遇到万恶的验证码,啊哈哈!
- 微信公众平台点击跳入,进入平台需要注册绑定微信,据说微信公众平台也有一种很鸡贼的方式获取到文章,就是编辑页面多了个转载功能,可以直接搜索公众号文章,从接口就可以获取到文章内容,不过貌似不能按公众号搜索,如下:
我就呵呵了,TX一点都不大方嘛,而且好像没阅读量这些数据,没什么价值也就没怎么进去看了。随便扔个链接有兴趣可以进去看看。https://blog.csdn.net/d1240673769/article/details/75907152 - Fiddler抓包微信客户端(重点要来了),是的这是目前为止最符合我需求的渠道了,貌似也只有微信客户端有点赞,阅读量了。
另起一行,首先呢你得下载个Fiddler,以及配置Fiddler,下载链接:https://www.telerik.com/download/fiddler
安装好后点击菜单栏的Tool->Options设置一波,差不多下面的样子吧:
然后好像还需要装一个该死的证书。微信的接口都是https,不装是抓不到数据的,具体方法我忘了,有时间想起来了再贴进去,应该不难。配好后你会看到很多奇奇怪怪的请求,是的fiddler已经在工作了,可是链接太多了看的眼花缭乱的,这时候我们需要过滤掉一些没用的信息,像这样:
Ok,这一步终于结束了。
下来就是和微信有关的东西了,首先手机电脑端微信都可以抓,方便起见,用win10微信客户端为例。打开微信扫码登录,麻溜的进入公众号随便点开一片文章,此时你的fiddler应该是打开的状态,那么你会看到一些mp.weixin.qq.com的https请求,如下所示:
那么恭喜你,你成功抓到了数据,否则那就什么都没有。
随意点开一个请求,如下:
这特么不就是文章内容么,对应网页版的也是一样的,可以可以
再随意点开一个请求,如下:
等等右下角的红框内容怎么看起来这么带感呢,稍微有点常识的人应该都知道那是干嘛的,没错就是点赞数和阅读量,右上角对应的就是请求头了,哈哈哈得来全不费功夫。不过这特喵的请求url带的参数够多的:https://mp.weixin.qq.com/mp/getappmsgext?f=json&mock=&uin=此处隐去敏感参数&key=f650c66250eec4fa16c59b57c5613a692ca9a75e81981e42292f2aafa4f2319a27d5c1010ecf9476ad76b8344d04bd178959a104065b590f7c2db4db499e543b17bbf858f8cbfe47380c9dbf47379d96&pass_ticket=xfXgqWYeNMqkpNmJpDKnvOlwbhiK1awDIt8SE6zeEg4LaVRqI1EfXw5duVmaMTXh&wxtoken=777&devicetype=Windows%26nbsp%3B10&clientversion=62060426&appmsg_token=983_%2BFff6DaA8iICxlfUzTIONkPmo8q7rNq4a95vDjisWwnLS3GeykhsOV77bwcUnQiOj7atgEfCjOmxL6Us&x5=0&f=json
后面还有一堆就不贴了,不过也别着急,这么长的参数肯定一大堆用不着的。果然在我多次尝试下找到了点赞阅读量接口的必要参数:
uni:用户唯一识别码,固定值
key:随机秘钥(10-30分钟的样子,好像不定长)
__biz :公众号唯一识别码,固定值
mid:可能是发布日期,固定值
sn:文章识别码,固定值
下面的参数就是固定的了,但是也是需要带的
综上所述,唯一变动的就是key了,这个key很头疼,网页版js找遍了没找到有关联的值,应该是微信客户端内置的加密方式,目前我还没找到破解的方法。好在这个key有相对较长的时间,抓小量数据足够了
那么我们就来构造这个请求,发现确实可以获取到json格式的数据,那就好办了。示例:
{"advertisement_info": [],"appmsgstat": {"show": true,"is_login": true,"liked": false,"read_num": 2853,"like_num": 14,"ret": 0,"real_read_num": 0},"reward_head_imgs": [],"base_resp": {"wxtoken": 777}
}
接着只需要整合到代码里去就行了,代码下次更新放出来。到这里基本分析结束,也下班啦!
【分享】如何用Pytho抓取微信公众号文章(包括阅读数,点赞数)相关推荐
- java 微信文章评论点赞_使用fiddler抓取微信公众号文章的阅读数、点赞数、评论数...
1 设置fiddler支持https 打开fiddler,在菜单栏中依次选择 [Tools]->[Options]->[HTTPS],勾上如下图的选项: 单击Actions,选择Expor ...
- python公众号文章_Python 抓取微信公众号文章
起因是刷微信的时候看到一篇文章,Python 抓取微信公众号文章保存成pdf,很容易搜到,就不贴出来了 先用chrome登陆微信公众号后台,先获取一下自己的cookie,复制下来就行,解析一下转换成 ...
- 记一次批量定时抓取微信公众号文章的实现
记一次批量定时抓取微信公众号文章的实现 抓取前的说明和准备 数据的抓取 批量抓取 定时抓取 对爬虫防抓取机制的一些解决办法 最后 抓取前的说明和准备 本次抓取的选择的语言是java,本文章不会将整个工 ...
- Python实现抓取微信公众号文章
本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章. 前言 对于抓取微信公众号文章主要通过代理ip抓包进行的操作,总会出现一些问题,以下问题导致无法抓包. ...
- 使用fiddler自动化抓取微信公众号文章的点赞与阅读数
本文章为lonter首创,只发布在csdn平台,严禁转载 这几天接到任务,需要开发一个微信榜单的功能,因此需要采集微信公众号文章的阅读数,点赞数和评论数,榜单内的微信公众号有一百多个,每个月出一次榜单 ...
- 利用搜狗抓取微信公众号文章
微信一直是一个自己玩的小圈子,前段时间搜狗推出的微信搜索带来了一丝曙光.搜狗搜索推出了内容搜索和公众号搜索两种,利用后者可以抓取微信公众号的最新内容,看了下还是比较及时的. 每个公众号都有一个open ...
- python爬虫抓取微信公众号文章(含全文图以及点赞数、在看数、阅读数)
因工作需要写了一个微信公众号文章的爬虫程序,贴一下分享给需要的朋友. 首先是抓取文章的url链接,在反复研究之后找到的一个最简单的方法,不需要抓包工具.首先需要自己注册一个微信公众号,有微信即可绑定注 ...
- python爬虫(17)爬出新高度_抓取微信公众号文章(selenium+phantomjs)
个人博客请访问 http://www.x0100.top 一.思路分析 目前所知晓的能够抓取的方法有: 1.微信APP中微信公众号文章链接的直接抓取(http://mp.weixin.qq.com/s ...
- python抓取微信公众号文章及评论(附过程)
需求:抓取人民网微信公众号的文章和评论 使用工具: fiddler python3 微信pc客户端 破解过程: 首先 使用fiddler对微信pc端抓包,需要配置https证书,另外最好加个filte ...
最新文章
- Ajax兼容处理+发送请求+接收返回信息
- php中对于json_decode()和json_encode()的使用方法笔记
- plor 回归的r方_简单线性回归模型
- Maven自動化構建工具
- pkcs#11和Cryptoki的介绍
- Spring(二)——Junit测试工具、属性的注入方式、注解
- python3数据类型:Number(数字)
- map和reduce
- element表格动态列、本地分页、动态form、自定义校验集成
- 数据链路层(2层)数据帧结构
- 在weblogic12c中启动工程报错缺失BeanFactoryAware
- python 图像模糊处理实现
- Java+AutoCAD-坐标系转换
- (四)深度学习入门之对图像进行简单分类(cifar10数据集)
- 拦截导弹问题(递归)
- Java集合之Collection集合、泛型 【集合综合案例:赌神、赌侠、赌神斗地主】
- P1567 统计天数(C语言)
- IC前后端001:高扇出的危害
- 我的至爱《约翰克里斯朵夫》读书笔记
- Unity3d实现手动选择动态加载PPT文件并展示