【爬虫】python爬取微信公众号
爬取微信公众号,一般有几种方式:1、通过登录微信公众号平台,在里面去搜索要爬取的公众号,然后抓包;2、通过安卓模拟器的方式去抓包; 3、通过搜狗的微信模块(https://weixin.sogou.com/)4、其他等方式...这里使用第一种方式去爬取数据,当然了,首先你要有一个微信公众号账号。目标公众号:******
工具: pycharm、fiddler微信公众号 : https://mp.weixin.qq.com1.登录微信公众号
2.进入创作管理
3.图文素材
4.图文模板
5.[新建]-编辑
6.添加引用 (见下图)
7.查找公众号文章
3.打开fiddler抓包可以在fiddler种设置过滤,只抓微信公众号
4.这里看下抓到的url :https://mp.weixin.qq.com/cgi-bin/appmsg?
action=list_ex&fakeid=************&query=&begin=0&count=4&type=9&need_author_name=1&token=*********&lang=zh_CN&f=json&ajax=1这是公众号起始url,其中:fakeid : 目标公众号的idbegin : 起始页,另外注意上图中得页码数5.上图是返回的json串,这里需要以下几个字段:aid,cover:图片链接digest:简介title:标题link:详情页urlcrate_time剩下的就是写代码了
# -*- coding: utf-8 -*-
import requests
import json
import time'''
爬取微信公众号 1. 通过 抓取 web版的微信公众号页面接口方式实现2. 目标 :a. 将文章的标题、发布时间、url地址、标题图片等信息保存b. 以html的格式保存每一篇文章内容c. 下载html中的图片,并修改为本地路径
'''class weixin:def __init__(self):self.start_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?action=list_ex&fakeid=*******&query=&begin={}&count=4&type=9&need_author_name=1&token=********&lang=zh_CN&f=json&ajax=1'self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36','Cookie': '略'}# 获取所有文章列表的urldef get_url_list(self):totalPage = 87 # 修改为总页数url_list = []for page_num in range(totalPage):page_num = page_num * 4tmp_url = self.start_url.format(page_num)url_list.append(tmp_url)return url_list# 请求列表页def parse_article_list(self,url):res = requests.get(url, headers=self.headers)article_list = json.loads(res.text).get('app_msg_list')return article_list# 解析列表页def get_article_info(self,article_list):# 判断当前页是否有数据if len(article_list) > 0 :item_list = []for article in article_list:item = {}item['aid'] = article.get('aid')item['title'] = article.get('title')item['digest'] = article.get('digest')item['link'] = article.get('link')item['cover'] = article.get('cover')item['create_time'] = article.get('create_time')self.saveAlist(item)item_list.append(item)return item_list# 保存文章列表的信息def saveAlist(self,item):path = './改成你要的名字.txt'with open(path,'a+',encoding='utf-8') as f:f.write(str(item)+'\n')# 请求详情页并保存到本地def parse_article(self,url,title):res = requests.get(url, headers=self.headers)title = self.filter_erro_name(title)file_path = './{}.html'.format(title)with open(file_path,'w',encoding='utf-8') as f:f.write(res.text)# 处理文件名中的特殊字符def filter_erro_name(self,title):error_set = ['/', '\\', ':', '*', '?', '"', '|', '<', '>']for x in title:if x in error_set:title = title.replace(x, '')return titledef run(self):print("入口")# 获取所有文章列表页的urlurl_list = self.get_url_list()# 请求每一页的urlfor url in url_list:time.sleep(3)# 请求每一页的数据article_list = self.parse_article_list(url)# 解析每一页的数据item_list = self.get_article_info(article_list)if __name__ == '__main__':wx = weixin()wx.run()上面的没写完,获取详情页还没写,有时间再写
【爬虫】python爬取微信公众号相关推荐
- python爬虫能爬取微信密码吗_爬虫如何爬取微信公众号文章
下篇文章:python爬虫如何爬取微信公众号文章(二) 下下篇连接python爬虫如何实现每天爬取微信公众号的推送文章 因为最近在法院实习,需要一些公众号的数据,然后做成网页展示出来便于查看,之前我倒 ...
- python爬虫实战-爬取微信公众号所有历史文章 - (00) 概述
http://efonfighting.imwork.net 欢迎关注微信公众号"一番码客"获取免费下载服务与源码,并及时接收最新文章推送. 最近几年随着人工智能和大数据的兴起,p ...
- python爬虫爬取微信_如何使用 Python 爬取微信公众号文章
我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...
- html如何获取请求头变量的值。_如何使用 Python 爬取微信公众号文章
我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...
- python 微信公众号发文章_如何使用 Python 爬取微信公众号文章
我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...
- 如何用python爬取公众号文章_如何使用 Python 爬取微信公众号文章
我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...
- 如何使用 Python 爬取微信公众号文章
我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...
- python爬取微信公众号文章(包含文章内容和图片)
之前虽然做过网页爬取,但微信爬取一直没做过,因为我一直不知道网页可以进微信公众平台,只用过微信客户端进微信公众号.既然可以通过网页进微信公众平台,那么爬取微信公众号文章就流程上就没太多难度了. 自己在 ...
- python爬取正确但不出文件_使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)...
前言 第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
- python爬取微信公众号_python使用webdriver爬取微信公众号
本文实例为大家分享了python使用webdriver爬取微信公众号的具体代码,供大家参考,具体内容如下 # -*- coding: utf-8 -*- from selenium import we ...
最新文章
- java 打印日志log_java如何LOG打印出日志信息
- 定西市计算机考试,2019年3月甘肃省定西市计算机等级考试时间
- nashPay项目遇到的问题
- 王道考研学习笔记IP数据报格式IP数据报分片(超详细)
- 深度学习《CNN架构》
- 在Eclipse中用Maven打包jar包--完整版
- NYOJ 82:迷宫寻宝(一)(BFS)
- htm的head标签各元素分享
- 《软技能:代码之外的生存指南》一一35.2 找出你的短板
- neo4j springboot 日志_SpringBoot使用Neo4j
- python可视化经纬度信息
- 纯干货分享 | 考PMP留下来的一些重要资料(收藏下载)
- linux打开mid格式音乐,mid文件扩展名,mid文件怎么打开?
- 金融风控实战——可解释人工智能技术
- 批量生成hive建表语句
- 微软大中华区迎来10年来首位华人CEO;华为前高管出任云南白药CEO;港交所新行政总裁委任获批 | 高管变动...
- python入门指南by许半仙-《江火欲燃山》《这题超纲了》《Python入门指南》
- TouchGFX如何校准电阻触摸屏
- 华为无线2020春招一面二面主管面-3.25
- Android Camera对焦相关基础自动对焦,手动对焦