前几天,朋友有一个爬取某些指定微信公众号的历史文章的需求,刚好自己闲的没事,也就试了一试。不算完美解决问题了吧,但是自己也无能为力了,毕竟腾讯那么牛,斗不过斗不过。

一、思路

看了一些别人的文章,综合对比搜狗微信和用fiddler抓取的办法,都比较复杂。这里还有一种比较好懂的方法,通过注册一个自己的微信公众号,拿自己号的信息去爬取,这样限制比较少一些。

我这里主要获取三个字段(公众号名字,公众号的文章名,对应文章名的链接)。

二、步骤方法

1.

先注册一个自己的微信公众号

2.

登陆自己的微信公众号,拿到两个东西。

第一个url里面的token值

第二个cookie值

3.

找到你要爬取的那个微信公众号的fakeid

在登陆的微信公众号左侧工具栏点击【素材管理】,再点击【新建图文素材】

点击上面超链接符号

1选择查找文章。

2输入公众号名字,我以江西水利为例

3点击查找到的公众号

随便点击一篇文章,进入文章详情页。

在打开的url中找到_biz的值(这个值也叫fakeid),复制下来。

准备工作已经到位了,下面开始写代码。

三、代码阶段

1

导包

2.

连接数据库和关闭数据库的两个函数,我用的是mysql数据库,自己修改代码写入到csv文件也是可以的。

3.

header,用来伪装。

4.

数据准备

在这里将要爬取的公众号和对应的fakeid写入一个字典,方便修改。

我获取了两组token和cookie的值,到时候利用随机函数调用其中的一套来防止访问太频繁而封号。

5.

主函数

6.运行结果

打开mysql

ok,完工啦。

写在最后

程序的问题主要是,爬了一段时间后,会被封,封IP还是封id,还没有搞清楚。昨天爬了1500篇文章后出现了这个。

被频率控制了。。。。。

如果谁有更好的解决办法,欢迎来交流啊。

源码下载地址:

提取码:j2q1

python爬取公众号文章_python爬取微信公众号历史文章相关推荐

  1. python下载微信公众号文章_python如何导出微信公众号文章

    [相关学习推荐:python教程] 1.安装wkhtmltopdf 下载地址:https://wkhtmltopdf.org/downloads.html 我测试用的是windows的,下载安装后结果 ...

  2. python下载微信公众号文章_python如何导出微信公众号文章方法详解

    1.安装wkhtmltopdf 下载地址:https://wkhtmltopdf.org/downloads.html 我测试用的是windows的,下载安装后结果如下 2 编写python 代码导出 ...

  3. python公众号文章_python如何导出微信公众号文章

    [相关学习推荐:python教程] 1.安装wkhtmltopdf 下载地址:https://wkhtmltopdf.org/downloads.html 我测试用的是windows的,下载安装后结果 ...

  4. python写微信公众号文章_python如何导出微信公众号文章

    [] 1.安装wkhtmltopdf 下载地址:https://wkhtmltopdf.org/downloads.html 我测试用的是windows的,下载安装后结果如下 2 编写python 代 ...

  5. python爬取论文全文数据_Python爬取微信公众号历史文章进行数据分析

    思路: 1. 安装代理AnProxy,在手机端安装CA证书,启动代理,设置手机代理: 2. 获取目标微信公众号的__biz; 3. 进入微信公众号的历史页面: 4. 使用Monkeyrunner控制滑 ...

  6. python公众号文章_Python抓取微信公众号文章

    公众号 灏泽异谈 文章列表链接 使用charles分析公众号请求 如图 image.png 找有用信息 完整URL请求地址 完整的请求头(headers)信息,Headers里面包括了cookie.U ...

  7. 纯代码实现WordPress文章部分内容关注微信公众号后可见

    前言 最新有小伙伴问我一个问题,像辉哥博客有些文章是用的关注微信公众号并回复指定内容后获取验证码才能查看文章的部分内容是怎么实现的,今天辉哥就教你纯代码实现WordPress文章部分内容关注微信公众号 ...

  8. 【CSDN】如何开启CSDN文章下的显示微信公众号、微信号、官方网站、QQ号、QQ群 ?

    开启CSDN文章下的显示微信公众号.微信号.官方网站.QQ号.QQ群 1 效果展示 微信公众号 微信号 官方网站(即公司网站) QQ号 QQ群 2 操作过程 微信公众号.微信号.官方网站(即公司网站) ...

  9. php微信公众号开发难吗,PHP微信公众号开发的两种模式

    微信现在已经深入到每个家庭,每个人至少人手一个账号是确定的,所以开发公众号也是很普遍的,今天爱站技术频道小编为大家带来的是PHP微信公众号开发的两种模式,感兴趣的小伙伴们可以参考下面的介绍. 学习步骤 ...

最新文章

  1. Android Volley 库通过网络获取 JSON 数据
  2. php正则替换%3cbr%3e_php利用正则替换过滤掉js(script)代码
  3. unity调用 Android 分享图片文字 方法 不需要第三方sdk 兼容android7.0+
  4. python操作mysql操作步骤
  5. Linux课程第二十一天学习笔记
  6. Debian 8.2 64位 安装MongoDB
  7. 个人遇到局域网不能访问解决分享
  8. 智能安全实验室-Defendio杀马2.4.0.420-实时防护-内存防护、新浏览器导航界面...
  9. mysql左右连接举例_MYSQL 连接举例
  10. Backup--查看备份还原需要的空间
  11. 二相四线制步进电机驱动原理与Proteus仿真
  12. 计算机如何建筑材料结合所学知识,《技术与设计2》第三、四单元综合测试卷...
  13. 饿了么UI库--Vue开发必备神器--让你轻松设计出好看的页面
  14. HTTPHEAD中referer应用
  15. 【python报错】Python词云库wordcloud不显示中文
  16. 基于C#实现卫星坐标计算与单点定位
  17. vs code git 编辑器中拉取(pull) 的时候报错 [rejected] v1.0.0 -> v1.0.0 (would clobber existing tag)
  18. ffmpeg隔几秒取一帧
  19. Mathtype安装教程(mathpage.wll文件未找到)
  20. 【硕士论文】《动态场景下的语义三维地图构建 》西南科技大学 余东应

热门文章

  1. 跨境电商卖家应该知道的3个社交媒体营销策略
  2. 物联网相关技术术语表
  3. ubuntu 下搭建gitLab
  4. 3Dmax基础:游戏建模渲染小技巧
  5. 【风马一族_构思】时光穿梭机
  6. app间共享(交互)方法
  7. 人工智能专业术语:物体识别、卷积神经网络、YOLO分别都是什么?
  8. Mac移动硬盘分区无法装载
  9. Unity 水体浮力的实现
  10. hortonworks_具有在IBM POWER8上运行的Hortonworks Data Platform(HDP)的SAS软件