微信采集的重点就是微信公众号相关的数据、主要是发布的文章、其他的话还有点赞阅读以及公众号的账号信息等。下面会大家一一说明如何采集、以及采集的一些限制。

首先是数据来源、主要分为两大块。客户端采集和搜狗微信采集。

搜狗微信采集相对来说比较简单,主要解决IP问题不断的去模拟搜文章和搜公号两个操作即可非常方便的采集到我们想要的文章。但是搜狗微信的局限也非常明显,1、信息不全面、据估算公号覆盖率应该只有百分之80左右。2、没有点赞阅读等信息。3、搜公号板块下所采集的文章链接为临时链接,超过一定时间或者到达一定点击次数就会失效,这个值需要具体论证。注:失效的链接通过微信客户端还是可以打开的、当然也有方法可以将临时链接转化成永久链接。

我们重点还是讲解客户端如何进行采集。首先我们看一下微信文章的永久链接的格式 :https://mp.weixin.qq.com/s?__biz=MzAwMDE0OTU5Nw==&mid=2657482754&idx=2&sn=746d7c43acb057fd83bcc582fab19840&chksm=817c0930b60b8026cc32aee211e1d3bf044e43e8d323d30579835f80c182cb7319b2e8ea3dbd&scene=27#wechat_redirect

关键的几个参数,1、Biz就是微信公号的ID 。2、mid文章的id。3、idx文章在该组文章中的顺序。4、sn(加密值、暂时不知道如何生成)。

接下来我们通过在客户端打开链接、抓个包可以看到下面的链接明显比上面的长,多了好几个参数。这里主要需要关注的是uin和key。UIN你自己的微信号ID、key字面意思就是钥匙通过变化公号BIZ我们可以发现这个Key的使用范围仅仅当前的公号有效、即只能访问带有这个BIZ的链接。那么问题来了、当我们需要大量访问不同公号的时候我们如何去处理。接下来会引入一个万能Key的概念、顾名思义使用这个Key就可以访问任意的BIZ。通过上面的分析我们已经大概可以知道只要能够获取万能Key通过不断的变换BIZ就可以进行该公号的文章采集工作。那么现在的重点在于如何批量自动获取万能Key,以及测试万能Key的使用规则。

https://mp.weixin.qq.com/s?__biz=MzAwMDE0OTU5Nw==&mid=2657482754&idx=2&sn=746d7c43acb057fd83bcc582fab19840&chksm=817c0930b60b8026cc32aee211e1d3bf044e43e8d323d30579835f80c182cb7319b2e8ea3dbd&scene=27&key=abfd51ca16a859156666f9c7c338fb2b4876c2febff465adf8c37c2e6b6eb728753d74db231ee460ea1eb93ee78b0686ca2f829146697189159e6b853278725ca32aca9cab0d19c307fa1b3c51c6356f&ascene=1&uin=MTk4MzAxNjUzMg%3D%3D&devicetype=Windows+7&version=62060619&lang=zh_CN&pass_ticket=MDrfvfr9bp1x7iCQWQ1tsjbc%2Bq4nDXrsrtj3afjg0vBfdOr9yOfHdIx8x4sXRlyM&winzoom=1

一、获取万能Key

万能Key目前只能通过客户端的方式进行获取、这意味着我们要获取万能Key就必须要采集设备(手机)+微信号。测试时我们可以使用安卓模拟器进行验证、(通过多开模拟器生产Key会很容易被封号、尤其是新注册的微信号)。我现在的做法是内嵌脚本到采集设备、同时安装安卓版抓包软件,脚本不断执行访问所产生的数据包会加密发送到web服务再最终入到数据库。接下来从库中取出调用即可。批量获取的话只能大量投入采集资源、手机+微信号。以万能Key的方式采集每天差不多有150W公号文章,搜狗的话就更多~

二、使用规则

1、采集一般的过程都是先访问列表、获取到列表中的文章链接再采集具体文章。微信公号采集这块也不例外。首先是列表页、微信公号的列表是通过访问公号的历史消息页面来进行的、这一块最早我们走的是香港的微信链接后面因为访问速度较慢限制也越来越多就弃用了、现在走的是大陆的链接目前对历史页的限制主要是每天每个微信号的访问总次数、速度不要太快、每天可以访问1300次左右。超过则会返回“操作频繁”24小时后自动解封。

2、采集文章的点赞阅读数时间间隔应该在2秒以上、反正也会返回异常。同时每天的总访问次数在6000次左右。

3、采集账号的主体信息、主要不要太快就行。大概在6到8S左右,注意这里不仅需要不同的万能Key,IP也有限制哦。不小心被封的话解封时间在2小时左右。

4、Key的有效期为2小时、超过2小时访问列表会返回 {ret:-3,no seesion}这样的字符串、采集主体信息会进入验证页面。所有生产更新万能Key的脚本一般设置为2小时以内。

主要规则应该就是上面这些、最近我们有参照其他微信采集工具开发一款应用工具可以实现自动采集微信公号永久链接的文章包括历史文章点赞阅读等。有需要的话都可以来当我的小白鼠联系找我免费试用哈~或是有啥疑问都欢迎骚扰一起交流~

微信:crawler888 添加时注明来意~

微信公众号采集,历史文章采集,万能key采集,点赞阅读评论采集相关推荐

  1. python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

    http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...

  2. 如何在微信公众号添加“历史文章”按钮

    微信公众号作为一个面向大众的超级媒介,受众面非常之广泛,并且门槛也不高,很多业余爱好者将微信公众号作为一个自媒体来苦心经营,发布各种各样的有价值的文章.为了方便读者对往期的阅读,在公众号里面设置一个& ...

  3. C# 微信公众号导出历史文章

    老婆公司的需求,公司给了一个星期的时间.让她每天去复制粘贴.然后就有了如下代码: 先说实现吧 一.抓包 Charles  https://www.charlesproxy.com/ 打开Charles ...

  4. 微信公众号所有历史文章的标题/点赞数/阅读数统计

    下面这段代码的逻辑起点是页面滑到底部ajax加载的一个链接url_initial(我是在手机微信上在浏览某个公众号的某个页面时send to Chat到自己账号,获得链接后在电脑chrome上打开; ...

  5. 如何将微信公众号上的文章下载下来?

    我最近发现微信公众号发布的的文章里边,有很多不错的图片,想要保存下来,可你习惯性的点击"图片另存为",发现有些图片的格式不是jpg格式,很难保存下来,选择截图又不是很清楚,那么该怎 ...

  6. 大数据信息资料采集:武志红公众号心理学历史文章采集评论搜集

    大数据信息资料采集:武志红公众号心理学历史文章采集评论搜集 公众号历史文章评论内容采集,导出表格格式. 采集到的内容包含:文章标题,发布时间,所属栏目,评论ID,评论内容,该评论得到的点赞数,号主评论 ...

  7. 为什么我不在微信公众号上写文章

    作者: 陈浩 原文: https://coolshell.cn/articles/17391.html 很多朋友问我为什么不在微信公众号上写文章.我都没有直接回答,老实说,我也是扭扭捏捏的,才去开了个 ...

  8. php 公众号发表文章,微信公众号如何发布文章最基本教程

    微信公众号如何发布文章最基本教程 阅读量:20016 发布时间:2019-07-22 17:20 现今随着微信的占有量和功能的增多,越来越多的小伙伴都在微信公众平台注册了属于自己的微信公账号,在微信公 ...

  9. 微信公众号中的文章如何使用朗读大师进行朗读?

    微信公众号中的文章小说新闻,都可以用朗读大师app进行朗读,下面介绍使用方法: 一,保证手机上已经安装最新的朗读大师app 没有安装的可以点击这里下载 或者最新版本 二,具体操作方法 打开微信公众号中 ...

最新文章

  1. 阿里古谦:阿里互联网架构的6大最佳实践
  2. CSS基础(part15)--元素的隐藏与显示
  3. openstack及组件简要介绍
  4. visual设计的界面发布到iis上显示不一样_享声 SOUNDAWARE 发布可“全民HIFI“的网播一体机 A1...
  5. 【莓控】黑莓GOOGLE MAPS(GPS软件)-转贴
  6. 7.Springcloud的Ribbon的自定义算法实现
  7. “Google只认钱!机器学习20年没进步”,CMU学者炮轰AI第一大厂
  8. Vue 教程第十一篇—— vue-cli
  9. Html 5 Input type=range 滑动条
  10. 如何用两个栈实现一个队列
  11. 嗨,你真得懂this吗?
  12. 局域网下两台电脑ping不通的问题总结
  13. xshell复制粘贴快捷键
  14. 2021-07-16思考-资本源于贪婪(与人性抗争)
  15. 消息队列RabbitMQ入门与PHP实战
  16. erewrwerwer
  17. 安卓recovery菜单中英文对照
  18. echarts折线图设置圆点_echarts 设置折线图单个数据小圆圈样式
  19. 【Android App】实现在线语音合成功能(使用云知声平台和WebSocket 超详细 附源码)
  20. (建立VLAN把接口加入VLAN)(VLAN间路由)(VLAN协议)

热门文章

  1. 晚上失眠白天没精神,怎么把这种状态调整回来!
  2. java旋转角度_java – 如何确定旋转图像的最终位置或角度
  3. TeamViwer远程操作
  4. 上方网首发:TestBird《2015年度手游测试白皮书》
  5. hdu 1116 并查集和欧拉路径
  6. 傲游 android 2.3,傲游浏览器安卓版-傲游浏览器手机版v5.2.3.3256-3454手机软件
  7. 为Symbian程序中的图片增加半透明效果
  8. 计算机视觉实战的深度学习实战二:图像预处理
  9. 星辰大海,不属于任何人,也属于任何人
  10. 强化学习入门: the 10-armed bandit problem,e-greedy 算法