本小白的第一篇技术分享博客,啊哈哈!!(石乐志)

真好,直接切入正题吧,目前来讲微信公众号文章主要有以下三种渠道可以获取,对应有三种抓取方式,如下~~

  1. 搜狗微信点击跳入,这算是对咱reptiler最友好的方式了(用requests+xpath就可以很轻松抓到),但是但是,点进去结果没有阅读量评论点赞等等关键要素,那还抓个屁@_@!!~~而且在不登录的情况下还是只能抓10篇而已嘛。我弱弱的试着抓了下,发现数据还是很好拿到的,不过没有代理的童鞋就是要费点心思了,因为你会遇到万恶的验证码,啊哈哈!
  2. 微信公众平台点击跳入,进入平台需要注册绑定微信,据说微信公众平台也有一种很鸡贼的方式获取到文章,就是编辑页面多了个转载功能,可以直接搜索公众号文章,从接口就可以获取到文章内容,不过貌似不能按公众号搜索,如下:

    我就呵呵了,TX一点都不大方嘛,而且好像没阅读量这些数据,没什么价值也就没怎么进去看了。随便扔个链接有兴趣可以进去看看。https://blog.csdn.net/d1240673769/article/details/75907152
  3. Fiddler抓包微信客户端(重点要来了),是的这是目前为止最符合我需求的渠道了,貌似也只有微信客户端有点赞,阅读量了。
    另起一行,首先呢你得下载个Fiddler,以及配置Fiddler,下载链接:https://www.telerik.com/download/fiddler
    安装好后点击菜单栏的Tool->Options设置一波,差不多下面的样子吧:


    然后好像还需要装一个该死的证书。微信的接口都是https,不装是抓不到数据的,具体方法我忘了,有时间想起来了再贴进去,应该不难。配好后你会看到很多奇奇怪怪的请求,是的fiddler已经在工作了,可是链接太多了看的眼花缭乱的,这时候我们需要过滤掉一些没用的信息,像这样:

    Ok,这一步终于结束了。
    下来就是和微信有关的东西了,首先手机电脑端微信都可以抓,方便起见,用win10微信客户端为例。打开微信扫码登录,麻溜的进入公众号随便点开一片文章,此时你的fiddler应该是打开的状态,那么你会看到一些mp.weixin.qq.com的https请求,如下所示:

    那么恭喜你,你成功抓到了数据,否则那就什么都没有。
    随意点开一个请求,如下:

    这特么不就是文章内容么,对应网页版的也是一样的,可以可以
    再随意点开一个请求,如下:

    等等右下角的红框内容怎么看起来这么带感呢,稍微有点常识的人应该都知道那是干嘛的,没错就是点赞数和阅读量,右上角对应的就是请求头了,哈哈哈得来全不费功夫。不过这特喵的请求url带的参数够多的:https://mp.weixin.qq.com/mp/getappmsgext?f=json&mock=&uin=此处隐去敏感参数&key=f650c66250eec4fa16c59b57c5613a692ca9a75e81981e42292f2aafa4f2319a27d5c1010ecf9476ad76b8344d04bd178959a104065b590f7c2db4db499e543b17bbf858f8cbfe47380c9dbf47379d96&pass_ticket=xfXgqWYeNMqkpNmJpDKnvOlwbhiK1awDIt8SE6zeEg4LaVRqI1EfXw5duVmaMTXh&wxtoken=777&devicetype=Windows%26nbsp%3B10&clientversion=62060426&appmsg_token=983_%2BFff6DaA8iICxlfUzTIONkPmo8q7rNq4a95vDjisWwnLS3GeykhsOV77bwcUnQiOj7atgEfCjOmxL6Us&x5=0&f=json
    后面还有一堆就不贴了,不过也别着急,这么长的参数肯定一大堆用不着的。果然在我多次尝试下找到了点赞阅读量接口的必要参数:

    uni:用户唯一识别码,固定值
    key:随机秘钥(10-30分钟的样子,好像不定长)
    __biz :公众号唯一识别码,固定值
    mid:可能是发布日期,固定值
    sn:文章识别码,固定值
    下面的参数就是固定的了,但是也是需要带的
    综上所述,唯一变动的就是key了,这个key很头疼,网页版js找遍了没找到有关联的值,应该是微信客户端内置的加密方式,目前我还没找到破解的方法。好在这个key有相对较长的时间,抓小量数据足够了
    那么我们就来构造这个请求,发现确实可以获取到json格式的数据,那就好办了。示例:
{"advertisement_info": [],"appmsgstat": {"show": true,"is_login": true,"liked": false,"read_num": 2853,"like_num": 14,"ret": 0,"real_read_num": 0},"reward_head_imgs": [],"base_resp": {"wxtoken": 777}
}

接着只需要整合到代码里去就行了,代码下次更新放出来。到这里基本分析结束,也下班啦!

【分享】如何用Pytho抓取微信公众号文章(包括阅读数,点赞数)相关推荐

  1. java 微信文章评论点赞_使用fiddler抓取微信公众号文章的阅读数、点赞数、评论数...

    1 设置fiddler支持https 打开fiddler,在菜单栏中依次选择 [Tools]->[Options]->[HTTPS],勾上如下图的选项: 单击Actions,选择Expor ...

  2. python公众号文章_Python 抓取微信公众号文章

    起因是刷微信的时候看到一篇文章,Python 抓取微信公众号文章保存成pdf,很容易搜到,就不贴出来了 先用chrome登陆微信公众号后台,先获取一下自己的cookie,复制下来就行,解析一下转换成 ...

  3. 记一次批量定时抓取微信公众号文章的实现

    记一次批量定时抓取微信公众号文章的实现 抓取前的说明和准备 数据的抓取 批量抓取 定时抓取 对爬虫防抓取机制的一些解决办法 最后 抓取前的说明和准备 本次抓取的选择的语言是java,本文章不会将整个工 ...

  4. Python实现抓取微信公众号文章

    本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章. 前言 对于抓取微信公众号文章主要通过代理ip抓包进行的操作,总会出现一些问题,以下问题导致无法抓包. ...

  5. 使用fiddler自动化抓取微信公众号文章的点赞与阅读数

    本文章为lonter首创,只发布在csdn平台,严禁转载 这几天接到任务,需要开发一个微信榜单的功能,因此需要采集微信公众号文章的阅读数,点赞数和评论数,榜单内的微信公众号有一百多个,每个月出一次榜单 ...

  6. 利用搜狗抓取微信公众号文章

    微信一直是一个自己玩的小圈子,前段时间搜狗推出的微信搜索带来了一丝曙光.搜狗搜索推出了内容搜索和公众号搜索两种,利用后者可以抓取微信公众号的最新内容,看了下还是比较及时的. 每个公众号都有一个open ...

  7. python爬虫抓取微信公众号文章(含全文图以及点赞数、在看数、阅读数)

    因工作需要写了一个微信公众号文章的爬虫程序,贴一下分享给需要的朋友. 首先是抓取文章的url链接,在反复研究之后找到的一个最简单的方法,不需要抓包工具.首先需要自己注册一个微信公众号,有微信即可绑定注 ...

  8. python爬虫(17)爬出新高度_抓取微信公众号文章(selenium+phantomjs)

    个人博客请访问 http://www.x0100.top 一.思路分析 目前所知晓的能够抓取的方法有: 1.微信APP中微信公众号文章链接的直接抓取(http://mp.weixin.qq.com/s ...

  9. python抓取微信公众号文章及评论(附过程)

    需求:抓取人民网微信公众号的文章和评论 使用工具: fiddler python3 微信pc客户端 破解过程: 首先 使用fiddler对微信pc端抓包,需要配置https证书,另外最好加个filte ...

最新文章

  1. Ajax兼容处理+发送请求+接收返回信息
  2. php中对于json_decode()和json_encode()的使用方法笔记
  3. plor 回归的r方_简单线性回归模型
  4. Maven自動化構建工具
  5. pkcs#11和Cryptoki的介绍
  6. Spring(二)——Junit测试工具、属性的注入方式、注解
  7. python3数据类型:Number(数字)
  8. map和reduce
  9. element表格动态列、本地分页、动态form、自定义校验集成
  10. 数据链路层(2层)数据帧结构
  11. 在weblogic12c中启动工程报错缺失BeanFactoryAware
  12. python 图像模糊处理实现
  13. Java+AutoCAD-坐标系转换
  14. (四)深度学习入门之对图像进行简单分类(cifar10数据集)
  15. 拦截导弹问题(递归)
  16. Java集合之Collection集合、泛型 【集合综合案例:赌神、赌侠、赌神斗地主】
  17. P1567 统计天数(C语言)
  18. IC前后端001:高扇出的危害
  19. 我的至爱《约翰克里斯朵夫》读书笔记
  20. Unity3d实现手动选择动态加载PPT文件并展示

热门文章

  1. 【C++】GDAL读取HDF数据
  2. aiff转mp3及其它各种文件格式转换
  3. 计算机还原默认的配置,每次启动电脑,bios都会恢复默认设置怎么办?
  4. 通过Shell实现小火车效果
  5. Spring Boot 排除自动配置
  6. JS基礎:Closure 閉包
  7. Unity 3S角色 Sp制作导出 工作流简要分享
  8. Qt 解决程序全屏运行弹窗引发任务栏显示
  9. 谷粒学院-云存储微服务环境搭建、上传讲师图像后端接口的实现
  10. PC微信逆向--看看哪些好友删除了自己