火车头采集微信公众号,这是许多网站建设的小伙伴都想要的功能。这篇内容是我在2020年4月份写的,但今天到7月了,完全没有问题。费话不多说,直接上干货。

先说说我的需求:

抓取一批公众号,大概10个。监控最新发文,粗略想法是上午检测一遍,下午检测一遍。有新文章就采集下来。

为什么用火车头?

这软件很好用,有自动网址去重功能。重复的链接跳过不再采。而且这火车头有wordpress免登录发文接口,小白我一直在用,习惯了,方便上手。

解决方案选定:

主要集中解决公众号历史文章url,即文章列表。

一、一开始是想使用wenxin.sogou.com(这也是网上教程最多的),结果发现搜狗公众号搜索早就已经不再显示某个公众号最新文章了。据说是2019年之前就已经不行了,腾讯关闭了接口。
二、直接微信抓包,使用fildder等抓包工具,配合pc版微信,抓取公众号url。这个很复杂。看了一圈教程,果断放弃,不是我能承受的范围。
三、使用第三方公众号数据查询平台。这个方案可以操作。我经过一番研究之后,发现了三个。

1、西瓜助手:http://zs.xiguaji.com
2、微小宝:https://data.wxb.com/

3、壹伴插件:https://yiban.io/dashboard/

说说各自的住优缺点:

西瓜助手,优点:可以查询海量的公众号,目测更新很快。公众号文章列表可以直接用火车头采集出来,跟采集普通网站一样。缺点,收费,而且贵的一批。普通版都是99元一个月。
微小宝,优点,免费,登录即可以看到公众号数据,更新较快(基本上间隔一天就有了),公众号收录也多。缺点,火车头不能直接采集列表,是通过js算法写出来的内容。
壹伴插件,优点,免费,火车头可以直接采集列表。缺点,部分公众号查询不到数据,更新情况过山车似的,有的间隔一天,有的间隔半年。

还体验过一个平台,叫vread,地址:https://www.vreadtech.com/。这个平台有一部分公众号内容,也是通过监控的方式来采集最新的公众号文章,优点火车头可以直接采。缺点:公众号收录较少,需要自己提交(我提交过一个,头天晚上提交,第二天还没收录)而且收费的。12元一个月。虽然便宜,但真心还不如免费的壹伴插件好用。

在第三方平台上,我耽误了很多时间。西瓜助手,我都把火车站采集规则写好了,在筛选公众号阶段了。结果第二天,提示我要升级会员才能继续用了。我操,努力白干了。浪费时间。
壹伴插件,写规则也简单。不过公众号数据更新迷一样的操作,我最终又放弃了它。
微小宝,这个可操作性还行。但是它呈现的列表,是js渲染出来的。火车头无能为力。只能通过python搭配selenium的文本来运行。这个selenium说白了就是一个程序驱动浏览器来打开网页。这样抓取到的结果就是js算法完成时呈现出来的结果。

道理我都懂,但是python我去年学过一两周,看了几节课,现在完全忘了。所以,我又学python,先是在b站上搜索了selenium的教程。看了几个之后,感觉不得劲。从硬盘里翻出来去年下载的一套 崔庆才老师的《Python3网络爬虫实战案例》,里面实战篇有一课:《课时16:使用Selenium模拟浏览器抓取淘宝商品美食信息》。这简直就是完美的教程。看了几遍之后,再在网上找了点源码,就可以开工了。

安装python,pycharm之类的就不多说了,新手又费了不少时间。

你以为这样就最终方案敲定了吗?

并不。

四、源于对微小宝抓取公众号文章数据也不是最新的缺陷(当天的没有,昨天的有)。我还想找找有没有更即时的方法。还真有。那就是微信公众号官方运营平台。https://mp.weixin.qq.com

这里可以素材管理,插入链接,引用其他公众号。这里的公众号显示的就是最新的数据。一个小时之前的文章都能抓到。

但是,这里同样火车头不能直接抓取列表。同样还是得python和selenium上阵。经过一晚上外加一上午的研究。

我终于完成了这个任务。

最终实现方案是这样操作的:

微信公众号运营平台,抓取列表页url,这个url生成html文件,保存到本地网站(phpstudy搭建)里。然后再到火车头里提取这些html里的url,再对单篇文章进行采集。(这样就实现了火车头跟采集普通网站一样的效果)

为什么不直接使用python来采集公众号目标文章?因为我技术不到位啊,采集具体文章,还要得搞懂图片下载,html标签处理。我是个新手,完全不会啊,学成还不知道要多久。而且公众号文章发布时间是js渲染的,我能轻松通过火车标签的方法,从selenium抓取的html信息里直接调用。


最近说一句:python里面的selenium真的是个神器啊!理论上任何东西都能抓取到!

文章来源:2020年4月可用的,火车头采集微信公众号最近文章(包括实时更新)的方法及思路

2020年7月最新,火车头批量采集微信公众号最近文章(包括实时更新)的方法及思路相关推荐

  1. 导出公众号历史文章,批量下载微信公众号数据分析

    功能:采集公众号,实时监测公众号的内容. 如何才能提高微信文章的采集速度? 采集文章工具都有哪些特点? 接下来给大家介绍一下 孤狼采集器 一.软件使用方法 第1步:开始采集自已即将要导出的文章 第2步 ...

  2. 爬虫实战教程:采集微信公众号文章

    一.场景简介 1.场景描述:通过搜狗采集微信公众号的文章 2.入口网址:https://weixin.sogou.com/weixin?type=1&s_from=input&quer ...

  3. 用浏览器监控采集微信公众号最新文章

    最近单位需要收集多个微信公众号的文章内容,手机上关注无法批量保存和导出文章.找了很久才发现搜狗可以搜索公众号,但每个公众号只显示一条最新的内容.于是就想到了使用软件不断循环监测采集的办法,每次出现新的 ...

  4. anyproxy批量自动采集微信公众号文章

    我从2014年就开始做微信公众号内容的批量采集,最开始的目的是为了做一个html5的垃圾内容网站.当时垃圾站采集到的微信公众号的内容很容易在公众号里面传播.当时批量采集特别好做,采集入口是公众号的历史 ...

  5. 微信公众号基本设置服务器设置教程,最新最全的微信公众号开发者模式配置

    微信公众号的开发分为编辑模式和开发者模式,那么最新最全的微信公众号开发者模式配置是什么呢,下面是学习啦小编收集整理的最新最全的微信公众号开发者模式配置,希望对大家有帮助~~ 最新最全的微信公众号开发者 ...

  6. python自动批量删除微信公众号文章

    近期,因为需要删除微信公众号的文章,但是肯定大家都会发现,无法批量删除,公众号的后台需要删除,需要一篇一篇的删除,然后扫码确认才能删除! 这TM的太麻烦了! 后来,发现订阅助手可以再手机上进行一篇篇的 ...

  7. 多账号批量登录微信公众号工具_微众公众号助手

    多账号批量登录微信公众号工具_微众公众号助手 账号登录工具 微信公众号 多账号批量登录微信公众号工具 微众公众号助手 点退出会自动退出登录的账号 左表选中下一个账号

  8. 小技巧!无需插件,一键批量下载微信公众号的图片!

    今天,我们就给大家分享一下无需插件.无需软件一键批量下载微信公众号的图片! 方法其实很简单,我们通过借助360安全浏览器的小功能(全屏看图)就可以批量下载图片到本地. 一.复制微信公众号文章到360安 ...

  9. python公众号文章_python采集微信公众号文章

    本文实例为大家分享了python采集微信公众号文章的具体代码,供大家参考,具体内容如下 在python一个子目录里存2个文件,分别是:采集公众号文章.py和config.py. 代码如下: 1.采集公 ...

最新文章

  1. Configuring the Java Virtual Manager (JVM)
  2. SAP Cloud Platform上Destination属性为odata_gen的具体用途
  3. 小米笔记本充电实测追求速度牺牲兼容性小米笔记本充电驱动_是海尔?也是雷神?不足1千克MixBook Air超轻薄笔记本...
  4. 应用软件系统程序员的三个立面
  5. html视频标签不显示,HTML视频标签无法正确显示视频
  6. @Html.ActionLink方法
  7. 20165328 第八周学习总结
  8. 除自身以外数组的乘积leetcode 238
  9. dynamips模拟器的安装
  10. 气象netCDF数据可视化分析
  11. 电视盒子为啥不安装鸿蒙,电视盒子视频播放不了怎么办?只需三步轻松解决!...
  12. 11 wifi6速率_使用高端的WIFI6路由器是什么体验?Orbi RBK752
  13. 老司机 iOS 周报 #15 | 2018-04-16
  14. 计算机板块:外包引领软件业高成长
  15. 【视频分享】尚硅谷Java视频教程_Spring Boot视频教程(下)整合篇
  16. List集合和ArrayList集合源码
  17. 核高基引发的Linux口水战
  18. python数据分析股票
  19. linux db2 删除表空间,DB2表清空数据的四种方法及技巧
  20. 如何进行移动设备资产管理

热门文章

  1. 服务器支持gd库,虚拟主机是否支持gd库
  2. [附源码]SSM计算机毕业设计小区物业管理系统JAVA
  3. docx4j 简介、中文文档、中英对照文档 下载
  4. Android中 自定义logo二维码绘制(仿微信QQ二维码)
  5. 国科大学习资料--模式识别与机器学习(黄庆明)--期末复习题3(含答案)
  6. Windows Dos脚本挂载硬盘或让硬盘脱机
  7. CVPR-Disgusied faces in wild 2018 开放环境下对伪装的面部进行识别 --面部识别的一个子领域
  8. java国漫论坛网站计算机毕业设计MyBatis+系统+LW文档+源码+调试部署
  9. Android之TextToSpeech类
  10. java puzzles_java Puzzles 之 如何正确的判断奇数