【爬虫】python爬取微信公众号

爬取微信公众号，一般有几种方式：1、通过登录微信公众号平台，在里面去搜索要爬取的公众号，然后抓包；2、通过安卓模拟器的方式去抓包； 3、通过搜狗的微信模块（https://weixin.sogou.com/）4、其他等方式...这里使用第一种方式去爬取数据，当然了，首先你要有一个微信公众号账号。目标公众号：******
工具： pycharm、fiddler微信公众号 ： https://mp.weixin.qq.com1.登录微信公众号
2.进入创作管理
3.图文素材
4.图文模板
5.[新建]-编辑
6.添加引用 （见下图）
7.查找公众号文章

3.打开fiddler抓包可以在fiddler种设置过滤，只抓微信公众号

4.这里看下抓到的url ：https://mp.weixin.qq.com/cgi-bin/appmsg?
action=list_ex&fakeid=************&query=&begin=0&count=4&type=9&need_author_name=1&token=*********&lang=zh_CN&f=json&ajax=1这是公众号起始url，其中：fakeid ： 目标公众号的idbegin : 起始页，另外注意上图中得页码数5.上图是返回的json串,这里需要以下几个字段：aid,cover:图片链接digest：简介title：标题link：详情页urlcrate_time剩下的就是写代码了

# -*- coding: utf-8 -*-
import requests
import json
import time'''
爬取微信公众号 1. 通过 抓取 web版的微信公众号页面接口方式实现2. 目标 ：a. 将文章的标题、发布时间、url地址、标题图片等信息保存b. 以html的格式保存每一篇文章内容c. 下载html中的图片，并修改为本地路径
'''class weixin:def __init__(self):self.start_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?action=list_ex&fakeid=*******&query=&begin={}&count=4&type=9&need_author_name=1&token=********&lang=zh_CN&f=json&ajax=1'self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36','Cookie': '略'}# 获取所有文章列表的urldef get_url_list(self):totalPage = 87  # 修改为总页数url_list = []for page_num in range(totalPage):page_num = page_num * 4tmp_url = self.start_url.format(page_num)url_list.append(tmp_url)return url_list# 请求列表页def parse_article_list(self,url):res = requests.get(url, headers=self.headers)article_list = json.loads(res.text).get('app_msg_list')return article_list# 解析列表页def get_article_info(self,article_list):# 判断当前页是否有数据if len(article_list) > 0 :item_list = []for article in article_list:item = {}item['aid'] = article.get('aid')item['title'] = article.get('title')item['digest'] = article.get('digest')item['link'] = article.get('link')item['cover'] = article.get('cover')item['create_time'] = article.get('create_time')self.saveAlist(item)item_list.append(item)return  item_list# 保存文章列表的信息def saveAlist(self,item):path = './改成你要的名字.txt'with open(path,'a+',encoding='utf-8') as f:f.write(str(item)+'\n')# 请求详情页并保存到本地def parse_article(self,url,title):res = requests.get(url, headers=self.headers)title = self.filter_erro_name(title)file_path = './{}.html'.format(title)with open(file_path,'w',encoding='utf-8') as f:f.write(res.text)# 处理文件名中的特殊字符def filter_erro_name(self,title):error_set = ['/', '\\', ':', '*', '?', '"', '|', '<', '>']for x in title:if x in error_set:title = title.replace(x, '')return titledef run(self):print("入口")# 获取所有文章列表页的urlurl_list = self.get_url_list()# 请求每一页的urlfor url in url_list:time.sleep(3)# 请求每一页的数据article_list = self.parse_article_list(url)# 解析每一页的数据item_list = self.get_article_info(article_list)if __name__ == '__main__':wx = weixin()wx.run()上面的没写完，获取详情页还没写，有时间再写

【爬虫】python爬取微信公众号相关推荐

python爬虫能爬取微信密码吗_爬虫如何爬取微信公众号文章
下篇文章:python爬虫如何爬取微信公众号文章(二) 下下篇连接python爬虫如何实现每天爬取微信公众号的推送文章因为最近在法院实习,需要一些公众号的数据,然后做成网页展示出来便于查看,之前我倒 ...
python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述
http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...
python爬虫爬取微信_如何使用 Python 爬取微信公众号文章
我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...
html如何获取请求头变量的值。_如何使用 Python 爬取微信公众号文章
我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...
python 微信公众号发文章_如何使用 Python 爬取微信公众号文章
我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...
如何用python爬取公众号文章_如何使用 Python 爬取微信公众号文章
我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...
如何使用 Python 爬取微信公众号文章
我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...
python爬取微信公众号文章（包含文章内容和图片）
之前虽然做过网页爬取,但微信爬取一直没做过,因为我一直不知道网页可以进微信公众平台,只用过微信客户端进微信公众号.既然可以通过网页进微信公众平台,那么爬取微信公众号文章就流程上就没太多难度了. 自己在 ...
python爬取正确但不出文件_使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)...
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
python爬取微信公众号_python使用webdriver爬取微信公众号
本文实例为大家分享了python使用webdriver爬取微信公众号的具体代码,供大家参考,具体内容如下 # -*- coding: utf-8 -*- from selenium import we ...

【爬虫】python爬取微信公众号

【爬虫】python爬取微信公众号相关推荐

最新文章

热门文章