源码下载请至 https://github.com/inmyjs/apspider

这是以前给新媒体运营同事写的爬虫软件,用了一段时间就没用了(唉、气死我了)。

目前只抓取了新榜的日榜(周榜、月榜类似,换下地址即可)下,各行业的前50个公众号下的7天热门文章和最新发布文章

如下所示:

技术架构:

  1. nw.js
  2. jquery
  3. element-ui

为什么选用nw.js呢?嗯,先入为主吧,electron也很不错(改下入口即可使用),为什么不用大名鼎鼎的python呢?爬虫框架可是一堆堆,还是个人习惯作祟,用惯了js,操作网页简直得心应手,天生绝配!在此并不否认python,个人也比较喜欢(最近在研究深度学习构架),只是觉得爬这些网页,还用不着它。

有一个关键点,在网页中,想操作iframe中的网页,是不允许跨域的,而nw.js允许这样操作,真是好啊!!!

安装步骤

  1. 下载nw.js ,根据自己系统下载相应版本即可,官网:https://nwjs.io/ ,若自己需要二次开发,请下载SDK版本,方可开启debug,使用方法详见官网,不再阐述
  2. 克隆APSpider,复制到nw.js目录,启动cmd,打开到当前目录,执行 npm install 安装依赖
  3. 启动nw.exe 就可以使用啦

使用说明

  1. 考虑完整性,本客户端在读取到公众号列表及文章列表时,直接存储在article下的目录文件中,若需要将数据存储至数据库,请修改assest\utils\common.js中的Ap.request.ajax方法,将log函数注释,将下面被注释的代码恢复即可,然后在app\config.js中配置pushStateAPI(即后端接收数据API)为自己的数据接口即可
  2. 由于新榜在公众号详细页面设置了登录权限(如:https://www.newrank.cn/public/info/detail.html?account=rmrbwx),
    只有登录后可访问,并且获取公众号文章的接口:https://www.newrank.cn/xdnphb/detail/getAccountArticle ,
    也是带了安全校验字段,所以登录是必须要走的过程,所以点击登录后,程序打开登录页面,并获取二维码,如图:

    用自己的微信扫一扫,授权登录即可,程序自动进入公众号列表:https://www.newrank.cn/public/info/list.html?period=day&type=data
  3. 选择行业,点击开始即可,程序将获取所选行业下公众号的热门文章及最新发布文章,并存储至文件中

    最初的版本是一键获取全部行业的文章,后面想想,还是自己想获取哪些行业的就获取哪些行业的


这是我的后台效果:

其他

  1. 新榜的所有ajax都带有安全校验字段和cookie,cookie倒是好办,登录后获取cookie存储起来,带到ajax的请求头中即可,至于校验字段,着实费了一些时间,这个不再这里详述破解方法,有时间我会在csdn中写写破解的思路。
  2. 关键词搜索还没做完,有时间补上。
  3. 原本计划把微博、简书等一并爬了,忙于其他事务,就落下了。

非常感谢您的支持

撸码不易,如果对你有所帮助,欢迎您的赞赏!微信赞赏码:

新榜微信文章抓取客户端(APSpider)相关推荐

  1. 微信文章抓取:微信临时链接转永久链接方法,一招摆脱链接过期烦恼

    上一篇文章<微信文章抓取:微信公众号文章抓取常识之临时链接.永久链接>中介绍了微信临时链接和微信永久链接的情况.那么大家一定会有一个问题:如何让临时链接不再过期?或者说如何把临时链接转换为 ...

  2. 【java】微信文章抓取

    1.搜狗微信url解析 以搜索湖北师范大学为例: 请求的url为: http://weixin.sogou.com/weixin?query=%E6%B9%96%E5%8C%97%E5%B8%88%E ...

  3. python中接口测试垃圾数据如何清理_一个六年经验的python后端是怎么学习用java写API的(2)Extracter,微信文章抓取清洗入库...

    描述 pirate 是由我的 django 脚手架 original 实现的,文件上传提供了七牛和腾讯云两个 backend,部署提供了默认的配置文件,因此只要关注具体的微信的抓取逻辑即可. 核心表讲 ...

  4. 微信文章抓取:微信公众号文章抓取常识之临时链接、永久链接

    未经允许请勿转载 曾经尝试过抓取微信文章的小伙伴,一定很熟悉搜狗微信.搜狗微信是腾讯官方提供的搜索引擎,专门用来搜索微信公众号发表的文章(不包含服务号). 对于想要获取微信文章进行研究学习的小伙伴,首 ...

  5. 微信公众号历史文章抓取

    微信公众号历史文章抓取 目录结构 WechatSpider │ README.md │ chromedriver.exe │ main.py │ gzhspider.py │ requirements ...

  6. 基于python的今日头条文章抓取内含signature算法

    基于python的今日头条文章抓取内含signature算法 扫二维码添加微信 备注:爬虫 , 拉你进爬虫交流群 或许你会成为第一个加群的人~ 刚有的创群想法! 1. 简单文字描述头条爬虫注意点 由于 ...

  7. 使用Snoopy类实现微信图文抓取功能

    类似于这样的效果: 首先我们下载Snoopy这个类. 然后我们新建一个php文件(collection.php)写如下代码: 通过开发者工具我们可以看到文章主要内容在rich_media_conten ...

  8. 10分钟教你用Python玩转微信之抓取好友个性签名制作词云

    10分钟教你用Python玩转微信之抓取好友个性签名制作词云 01 前言+展示 各位小伙伴我又来啦.今天带大家玩点好玩的东西,用Python抓取我们的微信好友个性签名,然后制作词云.怎样,有趣吧~好了 ...

  9. 新浪新闻页面抓取(JAVA-Jsoup)

    1.使用gradle建立工程: 工程格式如下: include ':spider-demo'rootProject.name = 'my-spider-demo' settings def void ...

  10. python编写微信自动抓取文件经历

    python编写微信自动抓取文件经历 背景 前期 写代码&坑 背景 近期疫情肆虐,老师全都线上教学,微信群里多出来一大堆乱七八糟的文件,烦死宝宝了,每次还要看,要是doc还得转换成pdf再放进 ...

最新文章

  1. 报名 | 清华大学大数据能力提升项目开始报名啦!(2021秋)
  2. Eclipse导入项目: No projects are found to import
  3. 强大的Vivado IP工具——自定义IP的使用
  4. SpringBoot动态生成多个Excel文件以压缩包.zip格式下载
  5. zblog php robots,zblog的robots.txt怎么写?zblog的robots.txt文件示例下载
  6. 万年5W充电头再见!2019新iPhone或将标配18W快充头
  7. C++用户自定义转换(User-Defined Conversion)
  8. python二维列表长度_python如何使二维数组的高度大于长度
  9. 【优化求解】狼群优化算法matlab源码
  10. Labview软件、NI数据采集卡、汽车发动机数据采集学习总结(二)
  11. NYOJ 19 擅长排列的小名 next_permutation()的用法
  12. centos7克隆机修改ip地址,并与另一台虚拟机ping起来
  13. 【shiro基础】springboot + shiro整合thymeleaf
  14. elclipse tptp的安装使用
  15. css和html的用法,HTML与CSS之CSS的基本使用
  16. 新技能get,微信提现这样操作可免手续费
  17. VM 虚拟机挂起之后,关闭虚拟机,第二天重启之后,连接不上 。静态ip设置
  18. 慧眼舆情热词分析架构简述
  19. MySQL练习题 答案和解析
  20. 「代码家」的学习过程和学习经验分享(挺好的一篇文章,转载侵删)

热门文章

  1. 不得不看的黑客工具集
  2. 移动光猫搭建虚拟服务器,折腾光猫/路由器[MIPS架构](1):用Samba服务器搭建家庭文件共享中心...
  3. FSL ICA-FIX配置及处理流程
  4. VTK:交互与Widget——观察者/命令模式
  5. 西数硬盘刷新固件_彻底解决硬盘测试曲线的困惑
  6. 盒子不显示工会与服务器,DNF天空盒子找不到怎么办 dnf新版本活动防坑指攻略...
  7. 计算机网络管理员初级是几级,计算机网络管理员初级操作技能考核试题
  8. python vbscript_VBScript学习笔记
  9. IPV6的福音---六维空间
  10. 六度空间 c语言 【详解】