爬取微信公众号,一般有几种方式:1、通过登录微信公众号平台,在里面去搜索要爬取的公众号,然后抓包;2、通过安卓模拟器的方式去抓包; 3、通过搜狗的微信模块(https://weixin.sogou.com/)4、其他等方式...这里使用第一种方式去爬取数据,当然了,首先你要有一个微信公众号账号。目标公众号:******
工具: pycharm、fiddler微信公众号 : https://mp.weixin.qq.com1.登录微信公众号
2.进入创作管理
3.图文素材
4.图文模板
5.[新建]-编辑
6.添加引用 (见下图)
7.查找公众号文章

3.打开fiddler抓包可以在fiddler种设置过滤,只抓微信公众号

4.这里看下抓到的url :https://mp.weixin.qq.com/cgi-bin/appmsg?
action=list_ex&fakeid=************&query=&begin=0&count=4&type=9&need_author_name=1&token=*********&lang=zh_CN&f=json&ajax=1这是公众号起始url,其中:fakeid : 目标公众号的idbegin : 起始页,另外注意上图中得页码数5.上图是返回的json串,这里需要以下几个字段:aid,cover:图片链接digest:简介title:标题link:详情页urlcrate_time剩下的就是写代码了
# -*- coding: utf-8 -*-
import requests
import json
import time'''
爬取微信公众号 1. 通过 抓取 web版的微信公众号页面接口方式实现2. 目标 :a. 将文章的标题、发布时间、url地址、标题图片等信息保存b. 以html的格式保存每一篇文章内容c. 下载html中的图片,并修改为本地路径
'''class weixin:def __init__(self):self.start_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?action=list_ex&fakeid=*******&query=&begin={}&count=4&type=9&need_author_name=1&token=********&lang=zh_CN&f=json&ajax=1'self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36','Cookie': '略'}# 获取所有文章列表的urldef get_url_list(self):totalPage = 87  # 修改为总页数url_list = []for page_num in range(totalPage):page_num = page_num * 4tmp_url = self.start_url.format(page_num)url_list.append(tmp_url)return url_list# 请求列表页def parse_article_list(self,url):res = requests.get(url, headers=self.headers)article_list = json.loads(res.text).get('app_msg_list')return article_list# 解析列表页def get_article_info(self,article_list):# 判断当前页是否有数据if len(article_list) > 0 :item_list = []for article in article_list:item = {}item['aid'] = article.get('aid')item['title'] = article.get('title')item['digest'] = article.get('digest')item['link'] = article.get('link')item['cover'] = article.get('cover')item['create_time'] = article.get('create_time')self.saveAlist(item)item_list.append(item)return  item_list# 保存文章列表的信息def saveAlist(self,item):path = './改成你要的名字.txt'with open(path,'a+',encoding='utf-8') as f:f.write(str(item)+'\n')# 请求详情页并保存到本地def parse_article(self,url,title):res = requests.get(url, headers=self.headers)title = self.filter_erro_name(title)file_path = './{}.html'.format(title)with open(file_path,'w',encoding='utf-8') as f:f.write(res.text)# 处理文件名中的特殊字符def filter_erro_name(self,title):error_set = ['/', '\\', ':', '*', '?', '"', '|', '<', '>']for x in title:if x in error_set:title = title.replace(x, '')return titledef run(self):print("入口")# 获取所有文章列表页的urlurl_list = self.get_url_list()# 请求每一页的urlfor url in url_list:time.sleep(3)# 请求每一页的数据article_list = self.parse_article_list(url)# 解析每一页的数据item_list = self.get_article_info(article_list)if __name__ == '__main__':wx = weixin()wx.run()上面的没写完,获取详情页还没写,有时间再写

【爬虫】python爬取微信公众号相关推荐

  1. python爬虫能爬取微信密码吗_爬虫如何爬取微信公众号文章

    下篇文章:python爬虫如何爬取微信公众号文章(二) 下下篇连接python爬虫如何实现每天爬取微信公众号的推送文章 因为最近在法院实习,需要一些公众号的数据,然后做成网页展示出来便于查看,之前我倒 ...

  2. python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述

    http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...

  3. python爬虫爬取微信_如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

  4. html如何获取请求头变量的值。_如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

  5. python 微信公众号发文章_如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

  6. 如何用python爬取公众号文章_如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

  7. 如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

  8. python爬取微信公众号文章(包含文章内容和图片)

    之前虽然做过网页爬取,但微信爬取一直没做过,因为我一直不知道网页可以进微信公众平台,只用过微信客户端进微信公众号.既然可以通过网页进微信公众平台,那么爬取微信公众号文章就流程上就没太多难度了. 自己在 ...

  9. python爬取正确但不出文件_使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)...

    前言 第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...

  10. python爬取微信公众号_python使用webdriver爬取微信公众号

    本文实例为大家分享了python使用webdriver爬取微信公众号的具体代码,供大家参考,具体内容如下 # -*- coding: utf-8 -*- from selenium import we ...

最新文章

  1. java 打印日志log_java如何LOG打印出日志信息
  2. 定西市计算机考试,2019年3月甘肃省定西市计算机等级考试时间
  3. nashPay项目遇到的问题
  4. 王道考研学习笔记IP数据报格式IP数据报分片(超详细)
  5. 深度学习《CNN架构》
  6. 在Eclipse中用Maven打包jar包--完整版
  7. NYOJ 82:迷宫寻宝(一)(BFS)
  8. htm的head标签各元素分享
  9. 《软技能:代码之外的生存指南》一一35.2 找出你的短板
  10. neo4j springboot 日志_SpringBoot使用Neo4j
  11. python可视化经纬度信息
  12. 纯干货分享 | 考PMP留下来的一些重要资料(收藏下载)
  13. linux打开mid格式音乐,mid文件扩展名,mid文件怎么打开?
  14. 金融风控实战——可解释人工智能技术
  15. 批量生成hive建表语句
  16. 微软大中华区迎来10年来首位华人CEO;华为前高管出任云南白药CEO;港交所新行政总裁委任获批 | 高管变动...
  17. python入门指南by许半仙-《江火欲燃山》《这题超纲了》《Python入门指南》
  18. TouchGFX如何校准电阻触摸屏
  19. 华为无线2020春招一面二面主管面-3.25
  20. Android Camera对焦相关基础自动对焦,手动对焦

热门文章

  1. 二维傅里叶变换频谱图的含义
  2. 道一MD5校验工具发布
  3. 开心网之开心餐厅游戏分析报告
  4. [转]Ribbon界面介绍(1)
  5. 改写TCPMP的界面
  6. php会员代码大全,PHP在线获取VIP会员账号API接口代码
  7. Linksys e3200初试tomato系统
  8. Python图像匹配
  9. Kubernetes(k8s)之日志收集
  10. WinPE启动映像制作(具体可参考WAIK帮助文档,这里只做简介)WinPe Image 制作篇