微信采集的重点就是微信公众号相关的数据、主要是发布的文章、其他的话还有点赞阅读以及公众号的账号信息等。下面会大家一一说明如何采集、以及采集的一些限制。

首先是数据来源、主要分为两大块。客户端采集和搜狗微信采集。

搜狗微信采集相对来说比较简单,主要解决IP问题不断的去模拟搜文章和搜公号两个操作即可非常方便的采集到我们想要的文章。但是搜狗微信的局限也非常明显,1、信息不全面、据估算公号覆盖率应该只有百分之80左右。2、没有点赞阅读等信息。3、搜公号板块下所采集的文章链接为临时链接,超过一定时间或者到达一定点击次数就会失效,这个值需要具体论证。注:失效的链接通过微信客户端还是可以打开的、当然也有方法可以将临时链接转化成永久链接。

我们重点还是讲解客户端如何进行采集。首先我们看一下微信文章的永久链接的格式 :https://mp.weixin.qq.com/s?__biz=MzAwMDE0OTU5Nw==&mid=2657482754&idx=2&sn=746d7c43acb057fd83bcc582fab19840&chksm=817c0930b60b8026cc32aee211e1d3bf044e43e8d323d30579835f80c182cb7319b2e8ea3dbd&scene=27#wechat_redirect

关键的几个参数,1、Biz就是微信公号的ID 。2、mid文章的id。3、idx文章在该组文章中的顺序。4、sn(加密值、暂时不知道如何生成)。

接下来我们通过在客户端打开链接、抓个包可以看到下面的链接明显比上面的长,多了好几个参数。这里主要需要关注的是uin和key。UIN你自己的微信号ID、key字面意思就是钥匙通过变化公号BIZ我们可以发现这个Key的使用范围仅仅当前的公号有效、即只能访问带有这个BIZ的链接。那么问题来了、当我们需要大量访问不同公号的时候我们如何去处理。接下来会引入一个万能Key的概念、顾名思义使用这个Key就可以访问任意的BIZ。通过上面的分析我们已经大概可以知道只要能够获取万能Key通过不断的变换BIZ就可以进行该公号的文章采集工作。那么现在的重点在于如何批量自动获取万能Key,以及测试万能Key的使用规则。

https://mp.weixin.qq.com/s?__biz=MzAwMDE0OTU5Nw==&mid=2657482754&idx=2&sn=746d7c43acb057fd83bcc582fab19840&chksm=817c0930b60b8026cc32aee211e1d3bf044e43e8d323d30579835f80c182cb7319b2e8ea3dbd&scene=27&key=abfd51ca16a859156666f9c7c338fb2b4876c2febff465adf8c37c2e6b6eb728753d74db231ee460ea1eb93ee78b0686ca2f829146697189159e6b853278725ca32aca9cab0d19c307fa1b3c51c6356f&ascene=1&uin=MTk4MzAxNjUzMg%3D%3D&devicetype=Windows+7&version=62060619&lang=zh_CN&pass_ticket=MDrfvfr9bp1x7iCQWQ1tsjbc%2Bq4nDXrsrtj3afjg0vBfdOr9yOfHdIx8x4sXRlyM&winzoom=1

一、获取万能Key

万能Key目前只能通过客户端的方式进行获取、这意味着我们要获取万能Key就必须要采集设备(手机)+微信号。测试时我们可以使用安卓模拟器进行验证、(通过多开模拟器生产Key会很容易被封号、尤其是新注册的微信号)。我现在的做法是内嵌脚本到采集设备、同时安装安卓版抓包软件,脚本不断执行访问所产生的数据包会加密发送到web服务再最终入到数据库。接下来从库中取出调用即可。批量获取的话只能大量投入采集资源、手机+微信号。以万能Key的方式采集每天差不多有150W公号文章,搜狗的话就更多~

二、使用规则

1、采集一般的过程都是先访问列表、获取到列表中的文章链接再采集具体文章。微信公号采集这块也不例外。首先是列表页、微信公号的列表是通过访问公号的历史消息页面来进行的、这一块最早我们走的是香港的微信链接后面因为访问速度较慢限制也越来越多就弃用了、现在走的是大陆的链接目前对历史页的限制主要是每天每个微信号的访问总次数、速度不要太快、每天可以访问1300次左右。超过则会返回“操作频繁”24小时后自动解封。

2、采集文章的点赞阅读数时间间隔应该在2秒以上、反正也会返回异常。同时每天的总访问次数在6000次左右。

3、采集账号的主体信息、主要不要太快就行。大概在6到8S左右,注意这里不仅需要不同的万能Key,IP也有限制哦。不小心被封的话解封时间在2小时左右。

4、Key的有效期为2小时、超过2小时访问列表会返回 {ret:-3,no seesion}这样的字符串、采集主体信息会进入验证页面。所有生产更新万能Key的脚本一般设置为2小时以内。

主要规则应该就是上面这些、最近我们有参照其他微信采集工具开发一款应用工具可以实现自动采集微信公号永久链接的文章包括历史文章点赞阅读等。有需要的话都可以来当我的小白鼠联系找我免费试用哈~或是有啥疑问都欢迎骚扰一起交流~

具体交流可+weixin: crawler888

如何获取微信公众号文章的阅读量和点赞数相关推荐

  1. 基于搜狗微信搜索获取公众号文章的阅读量及点赞量

    测试日期:2016/11/13 文章url样例(这个链接是有有效期的): http://mp.weixin.qq.com/s?src=3&timestamp=1479004927&ve ...

  2. 快速提高微信公众号文章的阅读量的必备神器——阅读红包!

    辛辛苦苦写了一篇文章,群发之后寥寥无几的阅读量让人心灰意冷~~~ 明明粉丝有好几万,群发之后只有几百的阅读量,让人怀疑人生~~~ 很多时候,我们真的愿意给阅读我们文章的用户发个微信红包以表感激...对 ...

  3. PHP阅读文章送积分规则代码,php实现微信公众号文章付费阅读功能的代码分享

    关于php实现微信公众号文章付费阅读功能,就是一片公众号文章,点进去显示标题,作者,时间,公众号名称和部分内容,要想阅读所有内容,那就支付0.01元就可以阅读所有的内容,这就是付费阅读!!!当然金额可 ...

  4. 如何获取微信公众号文章ID?9步教你!

    自媒体时代已经到来,越来越多的人开始关注和学习自媒体运营.而在自媒体运营中,微信公众号是一个非常重要的平台.为了更好地运营微信公众号,掌握文章ID获取方法是必不可少的技能之一.本文将从以下9个方面详细 ...

  5. php实现微信公众号文章付费阅读功能的代码分享

    关于php实现微信公众号文章付费阅读功能,就是一片公众号文章,点进去显示标题,作者,时间,公众号名称和部分内容,要想阅读所有内容,那就支付0.01元就可以阅读所有的内容,这就是付费阅读!!!当然金额可 ...

  6. 获取微信公众号文章封面图的技巧/网站

    直接使用访问:http://weixin.shareperform.com 以下主要是立项和事项的过程. 作为一个从Code转为营销策划的营销人,这周实力修一波操作. 一.需求 一个好的微信公众号推文 ...

  7. 快速获取微信公众号文章的技巧

    微信公众号是一个信息传播平台,许多人通过它获取信息.分享知识.但是,有时候我们会遇到需要保存公众号文章的情况.那么,如何获取微信公众号文章呢?本文将为您详细介绍. 一.使用搜狗微信搜索 搜狗微信搜索是 ...

  8. 获取微信公众号文章内视频真实地址

    PHP获取微信公众号文章内视频与音频真实地址 微信公众号的文章的爬取可以看到这个项目:github 基于QueryList的微信公众号文章获取工具 有任何问题可以留言. 返回数据: 包含音频和视频 包 ...

  9. 微信小程序获取微信公众号文章2

    微信小程序获取微信公众号文章2 前面介绍了一篇微信小程序打开微信公众号中的文章实战教程,主要介绍了实现的具体原理,但是实际去做的时候,发现了更多的坑,所以这里再补充一下. 原先的思路是不完整的 原先我 ...

最新文章

  1. $portfolio.isotope is not a function
  2. fopen和fopen_s用法的比较
  3. 湖南对口升学计算机组装考点,全国计算机等级考试湖南省考点名单及联系方式...
  4. DELPHI listbox去除重复项
  5. 2021广西对口中职高考成绩查询,教育资讯:2021广西本科对口中职分数线公布时间 几号查分...
  6. java中contains的用法_java容器中所有接口和类的用法
  7. 前端工具安装和运行相关
  8. 加解密技术(Cryptography)基本概念
  9. (王道408考研操作系统)第二章进程管理-第四节3:死锁处理策略之检测和解除
  10. 苹果大翻身!双11卖疯了,10分钟成交量超去年全天7倍
  11. Windows下进程通信的几种方式介绍
  12. Java基础(七)——文件、IO流
  13. Spring Autowiring @Qualifier example
  14. py2exe使用方法 (含一些调试技巧,如压缩email 类)(转)
  15. next数组_数据结构之数组与链表
  16. 计算24点有什么窍门或技巧吗?
  17. 解释颜色深度概念:8 bit、16 bit、32 bit的意思
  18. Poco库完全使用手册
  19. circos 作图简介
  20. 【程序人生】领导素质 | 第 5 级领导力:个人谦逊和坚定意志的胜利 | Level 5 Leadership: The Triumph of Humility and Fierce Resolve

热门文章

  1. 图像在计算机中是如何存储的
  2. 结构化面试.综合分析类(社会现象类+态度观点类)
  3. sony DTP-RP1破解的几个注意点
  4. 一些有用的mooc网站
  5. indesign 注意事项
  6. SVG黑科技微信排版『左右视差滚动』模板代码
  7. python正则匹配ip地址_IP地址正则表达式匹配方法,ip正则表达式匹配
  8. Hyperledger Fabric/Fabric-samples 安装及使用(Mac)
  9. [ilink32 Error] Fatal:Unable to open file 'ACNTBUILDERXE6.LIB'
  10. 14152学期校内岗招聘信息