目的:使用python的requests模块爬取某微信公众号历史消息
工具:微信桌面版、Fiddler

首先选择目标公众号,通过以下方式进入公众号历史消息

该页面在chrome是打不开的,需要手动设置user agent和cookies。这就需要使用Fiddler进行抓包。
可以看到,该页面默认只加载十条历史记录。想获得更多内容,需要通过下拉显示下一页,内容通过json形式发送给用户。

通过Fiddler,可以抓取该json的url地址。

复制该url地址到chrome,发现可以成功访问。
例如:https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz=MzA4ODc5NTEwNA==&f=json&offset=10&count=10&is_ok=1&scene=124&uin=ODMzNDA1OTQw&key=7bff9aeaa7d2e313ece438d8750df91e2ee7c918e4889f5086aa87cffe8010ad846d7eb0578885658f2ee4fb9ed69053c08c15a0481cabf0d743a82d4b4af9f73cdc7939d0b9ea923f8cc0a93356895b&pass_ticket=ngZPZ0%2BJiY6lPH98KDdFLCqiV6%2Fq%2B1DnuXDmzokdDHgRNHYLUKfHumcMUyRDwCCA&wxtoken=&appmsg_token=1055_pix9MJOv9Gosf24lBzDdPDCpfvl6MFixfq3YEw~~&x5=0&f=json
其中offset=10表示定位,通过修改该数值可以达到翻页的效果。如offse=0表示第一页。
值得注意的是,该url地址每隔一段时间会失效,目前没有找到合适的解决方法。

箭头指向即为具体的历史消息的真实url地址。
以上,前期准备工作基本完成,接下来只需要手动设置user agent、cookies和params进行get请求即可。
大概代码如下:

import requests
from lxml import html
etree = html.etree
import re
import jsonurl = your url
cookies = {your cookies}
headers = {your headers}
params = {your params}requests.packages.urllib3.disable_warnings()
response = requests.get(url=url, headers=headers, cookies=cookies, params=params, verify=False)
html_str = response.content.decode()
ret = re.findall(r"next url", html_str)for i in ret:url_detail = iresponse_detail = requests.get(url=url_detail, headers=headers, cookies=cookies, params=params, verify=False)# ......# do your work# ......

python爬取微信公众号历史消息相关推荐

  1. Python爬取微信公众号历史文章进行数据分析,发现2017年运营总结,可以这样写!...

    作者:刘晓明,互联网公司运维技术负责人,拥有10年的互联网开发和运维经验.一直致力于运维工具的开发和运维专家服务的推进,赋能开发,提高效能. 广告时间:最后给自己代个盐~~欢迎大家有空时翻下我牌子(知 ...

  2. html如何获取请求头变量的值。_如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

  3. python 微信公众号发文章_如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

  4. 如何用python爬取公众号文章_如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

  5. python爬虫爬取微信_如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

  6. 如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

  7. python爬取正确但不出文件_使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)...

    前言 第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...

  8. python爬取微信公众号文章(包含文章内容和图片)

    之前虽然做过网页爬取,但微信爬取一直没做过,因为我一直不知道网页可以进微信公众平台,只用过微信客户端进微信公众号.既然可以通过网页进微信公众平台,那么爬取微信公众号文章就流程上就没太多难度了. 自己在 ...

  9. python爬取微信公众号_python使用webdriver爬取微信公众号

    本文实例为大家分享了python使用webdriver爬取微信公众号的具体代码,供大家参考,具体内容如下 # -*- coding: utf-8 -*- from selenium import we ...

最新文章

  1. R语言入门第三集 实验二:基本数据处理
  2. Tomcat中文乱码问题的原理和解决方法
  3. php中change方法的使用,jQuery.change()函数的使用详解
  4. python读取txt文件代码-python批量处理txt文件的实例代码
  5. 深度神经网络(DNN)损失函数和激活函数的选择
  6. 中国硫酸氧钒市场发展战略与投资可行性分析报告2022-2028年版
  7. 自编码器深度分析+定制特征描述子构建初探
  8. ldap odbc mysql_Mysql+ODBC+OpenLDAP
  9. Nexus 安装 使用说明
  10. 性能测试--jmeter中正则表达式提取器的使用【16】
  11. (4)Spring框架----依赖注入(DI)
  12. [中奖]第九届“泰迪杯”挑战赛A题
  13. 4个免费的ASP.NET托管网站
  14. precede和previous_构词法词缀
  15. Sonic安装部署之——iOS设备接入
  16. 线下餐饮实体店线上精准引流方案!你想看的都在这儿!这篇文章教你转化!
  17. 电子工程师的职业规划
  18. HTML网页设计:电影网站设计——电影我不是药神(4页) HTML+CSS+JavaScript
  19. 最新PS 2020版发布!逆天黑科技一键P图看哭设计师!
  20. java使用 openoffice+swftools+flexpaper 在window下完成简单的文件预览

热门文章

  1. 【HttpCanary】Android网络分析工具HttpCanary使用教程
  2. 一图读懂 | H3C SecPath ACG1050-X1应用控制网关
  3. 关于博客园CNBLOG美化
  4. Docker搭建svn服务器
  5. java-net-php-python-ssm出版社管理系统计算机毕业设计程序
  6. java位反_JAVA位运算之按位取反
  7. 【JS继承】JS继承之构造函数继承
  8. CentOS 6镜像源更换方法
  9. The mapped handler method class XXXX is not an instance of the actual endpoint bean class XXXX
  10. c#mysql连接数据库字符串_C# 连接SQL数据库字符串