上一篇文章爬取微信公众号文章信息准备工作介绍了微信公众号历史文章和文章评论API的组成情况,历史文章API格式:https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz=MjM5NjAxOTU4MA==&f=json&offset=10&count=10&is_ok=1&scene=126&uin=777&key=777&pass_ticket=tsN5weBAV13S7TjerqBeu0m84CMPMmPz4P7lb8bvDk90y1LP%2F1j46CUzFqDsMuRj&wxtoken=&appmsg_token=986_Zxzm8ptDJ39%252BC1UbkzPrFKd_laYeOCk5cVFX9A~~&x5=1&f=json
文章评论API格式:https://mp.weixin.qq.com/mp/appmsg_comment?action=getcomment&scene=0&__biz=MjM5NjAxOTU4MA==&appmsgid=3009217642&idx=2&comment_id=578089232589930496&offset=0&limit=100&uin=777&key=777&pass_ticket=v+7PaoESYfMrxgXJpqOkfXV4Y2+gYNPPJfSSmzPXfeiuNrNiBeEcs+8b//Yit5sd&wxtoken=777&devicetype=android-26&clientversion=2607033b&appmsg_token=986_jbuKqpV9lCZ1cb787Tem5V5n6JKpU9TrOFUZRE5esVxnBK7IR-TsZiXLRNaO1tnfx4rkIk1xyFHRlqI7&x5=1&f=json
这个两个API有些共同的参数:__biz,pass_ticket,公共参数可以通过抓包获取。
也有各自独有的参数:历史文章API中offset是一直变化的,appmsg_token也会随着时间失效,抓包可以获取appmsg_token,而offset是以0开始,可以通过API返回看到下一个offset是接口返回的字段“next_offset”值。


文章评论API中的appmsgid是具体文章的图文消息ID,comment_id也与具体文章相关,appmsg_token每篇文章也不同。通过文章链接获取源代码我们可以查看到文章评论API的三个参数comment_id,appmsgid,appmsg_token,如下图:

历史文章API返回的json信息:

下面是通过格式化后并删除一些不需要数据后的信息,json格式

文章评论API返回的json信息:

base_resp是返回状态情况,elected_comment才是评论的信息

elected_comment下面的详细信息,当评论有回复时,reply_list有信息

本文使用python3.6,pymysql连接mysql数据库,具体代码如下:

# -!- coding: utf-8 -!-
'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''
#作者:cacho_37967865
#博客:https://blog.csdn.net/sinat_37967865
#文件:wechatArticleList.py
#日期:2018-12-08
#备注:通过Fiddler抓包,获取微信公众号历史文章信息和文章评论信息存储到mysql数据库表
'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''import requests
import json
import pymysql
from datetime import datetime
import reclass wechatArticle:def __init__(self,_biz,_pass_ticket,_appmsg_token,_cookie,_offset=0):self.offset = _offset       # 不同公众号不一样self.biz = _bizself.pass_ticket = _pass_ticketself.appmsg_token = _appmsg_tokenself.headers = {'cookie':_cookie,'User-Agent':'Mozilla/5.0 (Linux; Android 8.0; FRD-AL00 Build/HUAWEIFRD-AL00; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/57.0.2987.132'}self.db = pymysql.connect(host="localhost",user="root",password="123456",port=3306,use_unicode=True,#charset="utf8",database="sunshine")self.cursor = self.db.cursor()def get_article_list(self):offset = self.offsetwhile True:api = 'https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz={0}&f=json&offset={1}&count=10&is_ok=1&scene=126&uin=777&key=777&pass_ticket={2}&wxtoken=&appmsg_token={3}&x5=1&f=json'.format(self.biz, offset, self.pass_ticket, self.appmsg_token)resp = requests.get(api, headers=self.headers).json()print(type(resp), resp)  # 字典类型ret, status = resp.get('ret'), resp.get('errmsg')     # 状态信息if ret == 0 or status == 'ok':offset = resp['next_offset']general_msg_list = resp['general_msg_list']#print(type(general_msg_list),general_msg_list)    # json类型msg_list = json.loads(general_msg_list)['list']    # 先转化为字典类型再获取列表类型for msg in msg_list:comm_msg_info = msg['comm_msg_info']           # 字典类型,每次推送的消息(一次三篇)msg_id = comm_msg_info['id']                   # 推送消息的idpost_time = datetime.fromtimestamp(comm_msg_info['datetime'])     # 发布时间try:app_msg_ext_info = msg['app_msg_ext_info']  # 字典类型,文章信息(一次三篇)first_article_id = app_msg_ext_info['fileid']first_article_title = app_msg_ext_info['title']  # 本次推送的首条文章标题first_article_digest = app_msg_ext_info['digest']  # 本次推送的首条文章摘要first_article_url = app_msg_ext_info['content_url']self.get_article_detail(first_article_id,first_article_url)first_url = first_article_url.replace('amp;', '').split('&chksm')[0]self.article_to_mysql(msg_id, first_article_id, first_article_title, first_article_digest,first_url, post_time)multi_app_msg_item_list = app_msg_ext_info.get('multi_app_msg_item_list')for article in multi_app_msg_item_list:article_id = article['fileid']multi_article_title = article['title']multi_article_digest = article['digest']multi_article_url = article['content_url']self.get_article_detail(article_id,multi_article_url)multi_url = multi_article_url.replace('amp;', '').split('&chksm')[0]self.article_to_mysql(msg_id, article_id, multi_article_title, multi_article_digest,multi_url, post_time)except Exception as f:print(str(f))def get_article_detail(self,article_id,content_url):try:url = content_url.replace('amp;', '').replace('#wechat_redirect', '').replace('http', 'https')html = requests.get(url, headers=self.headers).text#print(html)except:print('获取评论失败' + content_url)else:str_comment = re.search(r'var comment_id = "(.*)" \|\| "(.*)" \* 1;', html)str_msg = re.search(r"var appmsgid = '' \|\| '(.*)'\|\|", html)   # 文章的idstr_token = re.search(r'window.appmsg_token = "(.*)";', html)if str_comment and str_msg and str_token:comment_id = str_comment.group(1)  # 评论id(固定)app_msg_id = str_msg.group(1)      # 票据id(非固定)appmsg_token = str_token.group(1)  # 票据token(非固定)# 缺一不可if comment_id and app_msg_id and appmsg_token:print("爬取评论的链接:" + url,html)self.get_article_comments(app_msg_id,comment_id,appmsg_token,article_id)def get_article_comments(self,app_msg_id,comment_id,appmsg_token,article_id):api = 'https://mp.weixin.qq.com/mp/appmsg_comment?action=getcomment&scene=0&__biz={0}&appmsgid={1}&idx=2&comment_id={2}&offset=0&limit=100&uin=777&key=777&pass_ticket={3}&wxtoken=777&devicetype=android-26&clientversion=2607033b&appmsg_token={4}&x5=1&f=json'.format(self.biz, app_msg_id, comment_id, self.pass_ticket, appmsg_token)resp = requests.get(api, headers=self.headers).json()ret, status = resp['base_resp']['ret'], resp['base_resp']['errmsg']if ret =='0' or status == 'ok':elected_comment = resp['elected_comment']for comment in elected_comment:content_id = comment.get('content_id') # 评论IDnick_name = comment.get('nick_name')  # 评论人昵称like_num = comment.get('like_num')     # 点赞comment_time = datetime.fromtimestamp(comment.get('create_time'))  # 评论时间content = comment.get('content')       # 评论内容#print("评论内容文章:",article_id,nick_name)self.comment_to_mysql(article_id,content_id,comment_time,nick_name,like_num,content)def create_article_table(self):sql1 = 'drop table if exists mnyd_article;'sql2 = 'create table mnyd_article(No INT(11) NOT NULL AUTO_INCREMENT,msg_id VARCHAR(15),article_id VARCHAR(15),post_time timestamp(2),title VARCHAR(200),digest VARCHAR(200),article_url varchar(300),PRIMARY KEY (No));'self.cursor.execute(sql1)self.cursor.execute(sql2)self.db.commit()def article_to_mysql(self,msg_id, article_id,title,digest,article_url,post_time):sql = "insert into mnyd_article(msg_id,article_id,title,digest,article_url,post_time) values('%s','%s','%s','%s','%s','%s')" % (msg_id,article_id,title, digest,article_url,post_time)try:# 使用 cursor() 方法创建一个游标对象 cursorself.cursor.execute(sql)except Exception as e:# 发生错误时回滚self.db.rollback()print(str(e))else:self.db.commit()  # 事务提交print('事务处理成功')def create_comment_table(self):sql1 = 'drop table if exists mnyd_comment;'sql2 = "create table mnyd_comment(No INT(11) NOT NULL AUTO_INCREMENT,article_id VARCHAR(15),content_id VARCHAR(20),comment_time timestamp(2),nick_name VARCHAR(50),like_num int,content varchar(1000),PRIMARY KEY (No)) COLLATE='utf8mb4_unicode_ci';"self.cursor.execute(sql1)self.cursor.execute(sql2)self.db.commit()def comment_to_mysql(self,article_id,content_id,comment_time,nick_name,like_num,content):sql = "insert into mnyd_comment(article_id,content_id,comment_time,nick_name,like_num,content) values('%s','%s','%s','%s','%i','%s')" % (article_id,content_id,comment_time, nick_name,like_num,content)try:# 使用 cursor() 方法创建一个游标对象 cursorself.cursor.execute(sql)except Exception as e:# 发生错误时回滚self.db.rollback()print(str(e))else:self.db.commit()  # 事务提交print('事务处理成功')if __name__ == '__main__':biz = 'MzIwNTc4NTEwOQ=='  # "码农有道公众号"   mnyd_article  mnyd_commentpass_ticket = 'ZS3nqLX1df5GhZ+zf/t0FYyf7Nfp52yUJ+PuyJUKvQtyln78R3QzBU21Xo528IE+'app_msg_token = '986_G0Sy%252FL2pNlAGA9PIXcqTRipxsKaGLurexidEyg~~'     # 历史文章wap_sid2 = 'CL3qgfIFElxMOFBzZ2dZOHQ1WTcxamRQLXUyMGFiU0tvNkZzUEJmRURhZmtJTkhLcEtYWU9rNm5WYmUtd29qd3Q3UmVqbmpZXzFxS21GMG13amVjM1NEaUVPajZNZG9EQUFBfjDH8K3gBTgNQAE='cookie = 'wxuin=1581282621; version=2607033b; pass_ticket={}; wap_sid2={}'.format(pass_ticket, wap_sid2)# 以上信息不同公众号每次抓取都需要借助抓包工具做修改wxarticles = wechatArticle(biz, pass_ticket, app_msg_token, cookie)wxarticles.create_article_table()         # 创建数据库表记录文章wxarticles.create_comment_table()         # 创建数据库表记录评论wxarticles.get_article_list()              # 开始爬取文章和评论

介绍一下上面的几个函数:
create_comment_table():创建存储评论的表,其中必须设置COLLATE='utf8mb4_unicode_ci',是为了确保能够存储特殊格式(mb4就是most bytes 4的意思,专门用来兼容四字节的unicode。)的微信昵称到数据库。
get_article_list():获取历史文章的信息,存入到数据库,并且将文章id和文章链接传入到get_article_detail()函数
get_article_detail():根据get_article_list()函数传入的参数获取文章评论API的参数
get_article_comments():根据get_article_detail()函数传入的参数获取文章评论并存入到数据库

此外注意以下几个要点:
def __init__(self,_biz,_pass_ticket,_appmsg_token,_cookie,_offset=0) 初始带cookie的参数信息,_offset=0对参数初始化
历史文章和文章评论API 可以通过str.format()设置参数
历史文章返回中有字段'app_msg_ext_info',在2017年5月前的文章是没有的,所以使用try.. except..

这个时候我们已经获取到了需要的信息,后续就是对信息进行处理并转化为自己的东西。

【Python爬虫】微信公众号历史文章和文章评论API分析相关推荐

  1. [python 爬虫]微信公众号权律二表情和壁纸爬虫

    搜狗搜索引擎可以搜索到微信的公众号,许久没有爬虫了,最近买了崔大神的<python网络爬虫开发实战>,感觉又回到了一年前初学爬虫时满怀激情的时代.下面小试牛刀,利用一些基本的库 reque ...

  2. 使用Python进行微信公众号开发(三)回复消息

    写在前面 <使用Python进行微信公众号开发>系列文章将与大家分享如何使用Python一步步搭建微信公众号后台服务器. 效果体验 扫码"是雯子吖"公众号进行体验 配置 ...

  3. 使用Python进行微信公众号开发(二)接收消息

    写在前面 <使用Python进行微信公众号开发>系列文章将与大家分享如何使用Python一步步搭建微信公众号后台服务器. 效果体验 扫码"是雯子吖"公众号进行体验 配置 ...

  4. python爬取公众号历史文章_pythons爬虫:抓取微信公众号 历史文章(selenium+phantomjs)...

    原标题:pythons爬虫:抓取微信公众号 历史文章(selenium+phantomjs) 大数据挖掘DT数据分析 公众号: datadw 本文爬虫代码可以通过回复本公众号关键字"公众号& ...

  5. python爬取公众号历史文章_python3 scrapy爬取微信公众号及历史信息V1.0

    妹子图.png 环境:python3  scrapy 目的 写这篇文章主要是做一下纪念,毕竟是搞了快两天的东西了,今天加大了量,使用scrapy爬取100多个微信公众号,然后出现IP被封的情况下,当然 ...

  6. python爬虫如何实现每天爬取微信公众号的推送文章

    python爬虫如何实现每天爬取微信公众号的推送文章 上上篇文章爬虫如何爬取微信公众号文章 上篇文章python爬虫如何爬取微信公众号文章(二) 上面的文章分别介绍了如何批量获取公众号的历史文章url ...

  7. 订阅号微信公众号历史文章爬虫php,一步步教你怎么打造微信公众号历史文章爬虫...

    原标题:一步步教你怎么打造微信公众号历史文章爬虫 开篇语: 邓爷爷曾说过:不管黑猫白猫,逮到耗子就是好猫.不管我是凑的还是笨办法堆出来的,确实把批量导出微信公众号所有历史文章的这个功能给做出来了,而且 ...

  8. 如何抓取微信公众号历史文章?使用订阅号实现微信公众号历史文章爬虫

        微信订阅号已经改版了,这篇文章已经过时了,不过可以提供还算有价值的参考.     微信公众号已经成为生活的一部分了,虽然里面有很多作者只是为了蹭热点,撩读者的 G 点,自己从中获得一些收益:但 ...

  9. python下载微信公众号文章_python selenium 微信公众号历史文章随手一点就返回首页?郁闷之下只好将他们都下载下来。...

    需求: 想阅读微信公众号历史文章,但是每次找回看得地方不方便. 思路: 1.使用selenium打开微信公众号历史文章,并滚动刷新到最底部,获取到所有历史文章urls. 2.对urls进行遍历访问,并 ...

最新文章

  1. python使用matplotlib可视化、使用matplotlib可视化scipy.misc图像、自定义使用winter色彩映射、将不同亮度映射到不同的色彩
  2. oracle往mysql数据同步存储过程_Oracle数据库之间数据同步
  3. 你连原理都还没弄明白?快来瞧瞧这份Spring面试小抄
  4. 【Python】青少年蓝桥杯_每日一题_5.21_画扇子
  5. mysql中筛选条件分类
  6. CCS3的过渡、变换、动画以及响应式布局、弹性布局
  7. cmd执行sql文件路径 oracle_oracle 基础 执行sql文件
  8. 大学电路题目怎么搜_长沙理工大学2020真题浅析
  9. 云贝连锁V2独立版V2.1.5源码-优化扫码登陆流程
  10. 如何成为数据科学家_成为数据科学家需要了解的10件事
  11. 一辆汽车让你搞懂springmvc项目结构
  12. CLR_via_C#.3rd 翻译[25.8 使用线程的理由]
  13. 用Python设置Excel样式
  14. nnt第三代接任务软件
  15. 【WordPress】视频有声音无图像
  16. 百度搜索结果页面的参数 键盘重复速度(rsv_sug3)
  17. 刘涛代言的美丽田园冲刺港股:年内盈利2亿 突击分红1.2亿
  18. 告别“霍金音”:华裔科学家设计脑机新设备,人类首次直接用脑波“说话”...
  19. 计算机excel按F4是那个公式,excel中键盘F4到底怎么用?_excle 中的f4
  20. 浏览器利用Webcam+Flash启用摄像头,并完成拍照

热门文章

  1. 中央处理器属于计算机外部设备吗,不属于计算机外部设备的是
  2. c语言dfs算法全排列代码,c语言dfs解决全排列问题
  3. ap接口 php_2018年小米高级 PHP 工程师面试题(模拟考试卷)
  4. 华中科技大学计算机学院考研大纲,2021华中科技大学考研大纲参考书目汇总
  5. php数组有没有类似next方法,PHP 数组current跟next用法
  6. JVM——详解类加载过程
  7. 内部类详解————静态内部类
  8. SpringBoot入门教程
  9. java get null_java 获取对象中为null的字段实例代码
  10. 数据结构实验:一元多项式计算器