最近单位需要收集多个微信公众号的文章内容,手机上关注无法批量保存和导出文章。找了很久才发现搜狗可以搜索公众号,但每个公众号只显示一条最新的内容。于是就想到了使用软件不断循环监测采集的办法,每次出现新的文章都采集和保存,累积下来就形成完整数据了。没有现成的专用搜索采集软件怎么办,那就找个通用的页面采集软件,于是又找到了木头浏览器,经过不断摸索发现木头浏览器可以自动完成从搜索查询到采集文章标题和内容的全过程,特别整理了操作步骤。
1、先创建一个Excel表格“微信公众号.xlsx”,用来保存所有公众号及其名称,后面让软件自动读取这个文件,如果要增加公众号,也直接添加到这个文件即可。

2、打开木头浏览器,找到【自动控制】菜单,打开【项目管理器】,将弹出项目管理窗口;

3、在项目管理器中,软件已经自动创建了一个“‘默认项目”,在该项目上点击鼠标右键打开快捷菜单,依次选择【新建步骤】、【打开网页】菜单项,新建一个打开网页的步骤,再添加搜狗的网址;

4、新建一个填写内容的步骤,点击【添加】按钮,弹出【添加自动填写项目】对话框,在此对话框中点击【自动获取】按钮,弹出木头浏览器主窗口,将鼠标移到搜索关键词输入框处点击鼠标右键,在弹出的快捷菜单中选择【获取元素并返回】,成功获取关键词输入框的参数,并返回到填写项目设置对话框。

5、获取输入框元素后,设置填写属性为”value",填写内容选择“填写Excel文件内容”,并设置"微信公众号.xlsx"的文件路径,选择该文件的第一个工作表,填写该表“公众号”字段下的内容,最后点击确定关闭对话框。

6、新建一个自动点击步骤,点击【添加】按钮,弹出【添加点击目标】对话框,点击【自动获取】按钮,弹出木头浏览器主窗口,把鼠标移到网页内“搜公众号”的按钮上,点击鼠标右键,选择【获取元素并返回】,成功获取搜索按钮。

7、在网页上手工搜索一个公众号,进入搜索结果页面。然后新建一个监控元素步骤,点击【添加】按钮,打开【添加监控元素】对话框,元素别名改为”最新文章“,点击【自动获取】按钮,弹出木头浏览器主窗口,把鼠标移到网页上的最新文章处点击右键,选择【获取元素并返回】,成功获取最新文章元素。修改监控元素属性为”text",类型为“字符串”,数据比较方式“Change"。意思是网页最新文章文本内容发生变化时报警提醒,并选择该节点下的Yes分支继续执行。

8、选择”Yes"节点修改报警设置,勾选“重复内容不提醒”和“弹出窗口提醒”,在弹窗显示内容输入框中,点击右键可添加监控元素“最新文章”,即直接提醒文章标题。

9、在“Yes"节点下新建”抓取内容“步骤,然后点击【添加】按钮,弹出【动态元素设置】对话框,修改别名为”公众号名称“,点击【自动获取】按钮,在木头浏览器主窗口网页上,找到公众号标题点击右键,选择【获取元素并返回】,获取元素属性名称输入“Text"。

10、以同样的方式,添加抓取最新文章的链接,修改别名为”文章链接“,获取元素属性名称填写”href“。

11、在”Yes"节点下新建一个保存内容的步骤,勾选“保存变量文件”,保存格式选择“Excel文档”,并设定保存文件路径。点击【设置内容】按钮,弹出【查看变量】对话框,选择需要保存到Excel的变量,包括监控元素变量和抓取变量内容。

12、在第一步打开网页后,插入一个定时控制步骤,设置间隔周期30秒运行一次,且不设置停止条件。只要不人工干预停止,将无限循环操作。

13、选择默认项目要节点,点击【开始】按钮,执行项目测试一下。

14、软件自动打开搜狗网页,自动输入公众号名称和点击搜索按钮了,并按设定周期继续查找下一个公众号。遇到最新文章会在屏幕右下角弹出提示窗口,显示最新文章标题及公众号名称。

15、在弹窗报警提醒的同时,木头浏览器已自动将内容保存到excel文档中。如有必要,还可以直接采集文章内容保存到表格中,限于篇幅,此问题留给大家探讨。

用浏览器监控采集微信公众号最新文章相关推荐

  1. 2020年7月最新,火车头批量采集微信公众号最近文章(包括实时更新)的方法及思路

    火车头采集微信公众号,这是许多网站建设的小伙伴都想要的功能.这篇内容是我在2020年4月份写的,但今天到7月了,完全没有问题.费话不多说,直接上干货. 先说说我的需求: 抓取一批公众号,大概10个.监 ...

  2. python自动获取微信公众号最新文章

    微信公众号获取思路 常用的微信公众号文章获取方法有搜狐.微信公众号主页获取和api接口等多个方法. 听说搜狐最近不怎么好用了,之前用的api接口也频繁维护,所以用了微信公众平台来进行数据爬取. 首先登 ...

  3. 爬虫实战教程:采集微信公众号文章

    一.场景简介 1.场景描述:通过搜狗采集微信公众号的文章 2.入口网址:https://weixin.sogou.com/weixin?type=1&s_from=input&quer ...

  4. puppeteer在linux上模拟浏览器截图——截取微信公众号文章全文实例

    前言 相信很多人都熟悉 puppeteer 模拟浏览器截图,是非常好用的,但是他在 Windows 上有一些截图问题,特别是当缩放加倍后截不全的 bug 存在(如果不开启缩放,截出来的会很模糊). 所 ...

  5. anyproxy批量自动采集微信公众号文章

    我从2014年就开始做微信公众号内容的批量采集,最开始的目的是为了做一个html5的垃圾内容网站.当时垃圾站采集到的微信公众号的内容很容易在公众号里面传播.当时批量采集特别好做,采集入口是公众号的历史 ...

  6. python公众号文章_python采集微信公众号文章

    本文实例为大家分享了python采集微信公众号文章的具体代码,供大家参考,具体内容如下 在python一个子目录里存2个文件,分别是:采集公众号文章.py和config.py. 代码如下: 1.采集公 ...

  7. 如何用python爬取公众号文章_Python+fiddler:爬取微信公众号的文章

    这几天师父有个小项目,挺有意思,如何使用python爬微信公众号中的新闻信息.大体流程如下.图1:流程 其实我们看到,这里并没有想象中的"智能"--依然需要手动刷公众号文章,然后才 ...

  8. 订阅号微信公众号历史文章爬虫php,一步步教你怎么打造微信公众号历史文章爬虫...

    原标题:一步步教你怎么打造微信公众号历史文章爬虫 开篇语: 邓爷爷曾说过:不管黑猫白猫,逮到耗子就是好猫.不管我是凑的还是笨办法堆出来的,确实把批量导出微信公众号所有历史文章的这个功能给做出来了,而且 ...

  9. 获取微信公众号历史文章列表页链接

    通用公式:https://mp.weixin.qq.com/mp/profile_ext?action=home&__biz=这里替换你的biz== Tips:红字内容为下面找到的biz值,切 ...

最新文章

  1. Colaboratory挂载google drive的两种网盘
  2. Tomcat7出现HTTP Status 500 - java.lang.ClassCastException: org.apache.jasper.el.ELContextImpl cannot b
  3. 学习hadoop需要具备基础知识
  4. 基于php重庆旅游设计网站作品
  5. bmp280c语言程序,51单片机读取BMP280 180 280气压值1602显示程序
  6. CF712E [Memort and Casinos]
  7. Oracle创建上下文 SYS_CONTEXT
  8. 万能命令免费下载百度文库任意文档
  9. 《计算机操作系统》(第四版)知识点总结
  10. 下面对html描述正确的有多选题,web前端笔试题
  11. 怎么在WORD2016里给文档空白处添加下划线,干货在这里,WORD2016空白处如何添加下划线
  12. 51单片机——74HC573锁存器
  13. 自己动手写java虚拟机(第一话)
  14. android 源代码分析 绘制,Android源码分析(View的绘制流程)
  15. Javascript基础之-var,let和const深入解析(二) - 三者的规范描述、临时死区 (TDZ)、双定义
  16. 弘辽科技:拼多多发货中途改地址可以吗?怎么改?
  17. 第六章 第一节 文本控件
  18. python中将字符变为大写_python3 数字转人民币大写
  19. js实现flappybird解析
  20. win32中SetCapture 和 ReleaseCapture的使用

热门文章

  1. 交换机与路由器技术-05-路由器工作原理
  2. 关于浏览器核心的一些思考
  3. MFC通讯录入门必看
  4. [zz]在港内地学生办理工作签证指南(IANG)
  5. AD中画圆弧形板框的方法
  6. js数组要用的方法:push、pop、unshift、shift、splice、reverse、sort、concat、join、slice、indexof、foreash、map、filter
  7. 寻找两个正序数组的中位数
  8. 在oracle存储过程中创建临时表
  9. 【Win10开机软件自启动】win10系统自定义开机启动项的方法
  10. ExcelWriter 导出excel