python爬取公众号,用最简单的方式爬虫
目标公众号:吃鸡搞笑视频
设备:python集成工具--pyCharm
之所以称之为最近单方式,是因为--代码少,效果好
这里只爬了公众号的标题和链接,先上效果
效果图
操作步骤: 1、先自己申请一个公众号,链接:https://mp.weixin.qq.com/ 2、登录自己的账号,新建文章图文,点击超链接
3、弹出搜索框,搜索自己需要的公众号,查看历史文章
查看历史文章
通过抓包获取请求的url
通过点击下一页,多次获取url发现,只有bengin的参数发生变化
所以我们确定了url,开始爬虫吧
报错信息如下,应该是缺少cookie和其他相关参数 添加上cookie进行,爬取,发现完全没问题(测试发现cookie的有效期很长),那就完全可用,方式被发现是爬虫我又添加了两个参数: Host:域名 Referer:上次的请求 是我的操作更像浏览器
完整代码如下
# -*- coding: utf-8 -*-
import requests
import jsonpathheaders = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
"Host": "mp.weixin.qq.com",
"Referer": "https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit&action=edit&type=10&isMul=1&isNew=1&lang=zh_CN&token=1862390040",
"Cookie": "防止cookie过期,爬虫前,设置自己刚获取的cookie值"}for i in range(44):url = "https://mp.weixin.qq.com/cgi-bin/appmsg?token=1862390040&lang=zh_CN&f=json&ajax=1&random=0.17794584803309532&action=list_ex&begin={}&count=5&query=&fakeid=&type=9".format(str(i * 5))response = requests.get(url, headers = headers)jsonRes = response.json()titleList = jsonpath.jsonpath(jsonRes, "$..title")urlList = jsonpath.jsonpath(jsonRes, "$..link")# 遍历 构造可存储字符串for index in range(len(titleList)):title = titleList[index]url = urlList[index]scvStr = "%s,%s,\n" % (title, url)with open("info.csv", "a+", encoding="gbk", newline='') as f:f.write(scvStr)
复制代码
一共700+信息,没有丢数据
python爬取公众号,用最简单的方式爬虫相关推荐
- Python爬取公众号保存成Word
Python爬取公众号 1. 相关工具 2. 实现原理 2.1 HTML解析 3. 编码 3.1 pip装包 3.2 HTML解析 3.3 下载图片 3.4 保存到word中 3. 结束语 1. 相关 ...
- python爬取公众号文章如何获取发布时间
python爬取公众号文章如何获取发布时间 在上一篇爬取公众号的文章中爬虫如何爬取微信公众号文章介绍了如何获取公众号的所有历史文章链接,但当我根据链接去爬取文章的时候,却遇到了一个小问题,就是文章的发 ...
- 用python爬取公众号推送图片并保存为PPT
文章目录 一.前言 二.开始 (一)获取推送URL链接 (二)爬取网页并提取图片保存 1.定义用于爬取推送图片的PictureSpider类 2.定义get_url_text()方法 3.定义sear ...
- 如何用python爬取公众号文章_Python+fiddler:爬取微信公众号的文章
这几天师父有个小项目,挺有意思,如何使用python爬微信公众号中的新闻信息.大体流程如下.图1:流程 其实我们看到,这里并没有想象中的"智能"--依然需要手动刷公众号文章,然后才 ...
- python爬取公众号历史文章
文章来源 学习网上以及自己修改. 参考链接: https://blog.csdn.net/d1240673769/article/details/75907152 目的 ''' 爬取公众号的历史文章信 ...
- 如何用python爬取公众号文章搜狗微信搜索_python如何爬取搜狗微信公众号文章永久链接的思路解析...
这篇文章主要介绍了python如何爬取搜狗微信公众号文章永久链接的思路解析 ,小编觉得挺不错的,现在分享给大家,也给大家做个参考.一起跟随小编过来看看吧. 本文主要讲解思路,代码部分请自行解决搜狗微信 ...
- python爬取公众号阅读量_公众号没做起来,那是你菜 | 爬取21个公众号数据后
一直有爬公众号数据的想法,奈何 python 技术不足搁置许久. 最近刚好找到了一款可以爬取公众号数据的工具,一顿操作爬了21个公众号.废话不多说,分析过程 loading -- 第一次更新时间 冯大 ...
- 如何用python爬取公众号文章_如何使用 Python 爬取微信公众号文章
我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...
- Python 爬取公众号文章链接并生成html
微信不提供公众号分组管理,部分公众号内容优质但更新频率低,我们通过抓取特定公众号更新解决这个问题. 网上介绍的方法较多,参考各位大神的文章后,最后选择了通过公众号管理平台抓取的方法. 大体思路: 通过 ...
最新文章
- SpringBoot面试题及答案 110道(持续更新)
- eclipse svn异常:RA layer request failed 的解决方案
- MyEclipse 如何使用断点调试
- gridview不换行,高亮显示
- 查看网页HTML源代码违法,属于“黑客”行为?
- 【NOIP2014模拟8.25】设备塔
- html读取在线文件,javascript中如何读取文件?
- python做网络图_使用Python的networkx绘制精美网络图教程
- 关于火车票12306
- 服务器ubuntu系统调节亮度,ubuntu 设置显示器的亮度
- 《游戏脚本的设计与开发》-(RPG部分)3.7 战斗系统之自动战斗(一)
- 游戏联网必备: 国内外实时对战服务详细对比
- 阿里数据中台演进四个阶段
- 求命题公式的真值表及主范式(栈实现)
- 成功的条件:高人指点、贵人相助、小人监督、个人奋斗
- 电信网通证实台湾地震影响内地访问国际网站(12月27日)
- 唯品会还“品“的动吗?
- 硬盘详解与如何选购固态硬盘
- Arduino UNO驱动TM1637四位时钟数码管显示时间
- 虚拟化——初始化系统配置