爬取逻辑

  1. 使用selenium自动化工具,获取微信公众号平台的cookies以及加密token
  2. 把cookie与token用在requests函数中模拟浏览器访问微信公众号服务中的素材管理
  3. 在素材管理中搜索,公众号名称与文章,获取文章地址与保存

使用selenium获取token

1、需要扫码登录,获取token,与 登录状态的cookie,使用get_cookies()方法或页面cookies
2、通过xpath匹配出一个url,re匹配出token
3、

下面是代码的实现

#遵循PEP8规则
import time
import json
import refrom selenium import webdriver
from lxml import html# 获取cookies和token
class C_ookie:# 初始化def __init__(self):self.html = ''# 获取cookiedef get_cookie(self):url = 'https://mp.weixin.qq.com'Browner = webdriver.Chrome()Browner.get(url)# 获取账号输入框ID = Browner.find_element_by_name('account')# 获取密码输入框PW = Browner.find_element_by_name('password')# 输入账号id = ''pw = ''# id = input('请输入账号:')# pw = input('请输入密码:')ID.send_keys(id)PW.send_keys(pw)# 获取登录button,点击登录Browner.find_element_by_class_name('btn_login').click()# 等待扫二维码time.sleep(10)ck = Browner.get_cookies()ck1 = json.dumps(ck)with open('ck.txt','w') as f :f.write(ck1)f.close()self.html = Browner.page_source# 获取token,在页面中提取def Token(self):etree = html.etreeh = etree.HTML(self.html)url = h.xpath('//a[@title="首页"]/@href')[0]print(url)token = re.findall('\d+',url)print(token)with open('token.txt', 'w') as f:f.write(token)f.close()C = C_ookie()
C.get_cookie()
C.Token()

最主要的秘钥已经解决了,剩下的就是模范浏览器访问后端的,期间不要过猛,否则容易被发现,被腾讯封个几小时

接下来准备爬取微信公众号里面的资源url了,可以先自己爬取一下,下一篇博客咱们一起来获取

爬取微信公众号cookie获取与token获取相关推荐

  1. html如何获取请求头变量的值。_如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

  2. python爬取微信公众号文章(携带cookie)

      哈喽,大家好呀,这里是滑稽研究所.本期我们想要爬取微信公众号的文章内容.首先你想要有自己的微信公众号来登录平台.在个人编辑发布文章的界面,我们能使用上方的超链接功能来搜索文章,可以按关键字,也可以 ...

  3. Python3网络爬虫开发实战,使用IP代理爬取微信公众号文章

    前面讲解了代理池的维护和付费代理的相关使用方法,接下来我们进行一下实战演练,利用代理来爬取微信公众号的文章. 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知 ...

  4. 使用代理爬去微信公众号_Python3网络爬虫开发实战之使用代理爬取微信公众号文章...

    本节目标 我们的主要目标是利用代理爬取微信公众号的文章,提取正文.发表日期.公众号等内容,爬取来源是搜狗微信,其链接为 http://weixin.sogou.com/,然后把爬取结果保存到 MySQ ...

  5. 使用代理爬去微信公众号_Python3WebSpider/9.5-使用代理爬取微信公众号文章.md at master · Lainton/Python3WebSpider · GitHub...

    9.5 使用代理爬取微信公众号文章 前面讲解了代理池的维护和付费代理的相关使用方法,接下来我们进行一下实战演练,利用代理来爬取微信公众号的文章. 1. 本节目标 我们的主要目标是利用代理爬取微信公众号 ...

  6. Python 爬取微信公众号文章

    获取任何你想爬取的微信公众号文章 本程序通过输入关键字(如CSDN)就会获取到所有包含关键字(如CSDN)的公众号.在逐一获取所有公众号下所有文章.当然,这只是理想情况,腾讯的反爬不是一般的厉害,他会 ...

  7. python爬取微信公众号文章(包含文章内容和图片)

    之前虽然做过网页爬取,但微信爬取一直没做过,因为我一直不知道网页可以进微信公众平台,只用过微信客户端进微信公众号.既然可以通过网页进微信公众平台,那么爬取微信公众号文章就流程上就没太多难度了. 自己在 ...

  8. python爬虫能爬取微信密码吗_爬虫如何爬取微信公众号文章

    下篇文章:python爬虫如何爬取微信公众号文章(二) 下下篇连接python爬虫如何实现每天爬取微信公众号的推送文章 因为最近在法院实习,需要一些公众号的数据,然后做成网页展示出来便于查看,之前我倒 ...

  9. python爬取微信公众号_python使用webdriver爬取微信公众号

    本文实例为大家分享了python使用webdriver爬取微信公众号的具体代码,供大家参考,具体内容如下 # -*- coding: utf-8 -*- from selenium import we ...

  10. Python爬取微信公众号文章、点赞数

    代码还是热乎的,只要你细心一步步的慢慢调试,绝壁没问题 前期准备 订阅号: Python: Fiddler: 微信账号: 流程 使用用微信公众号生成cookie 使用Fiddler抓取微信公众号数据, ...

最新文章

  1. UOJ #164 [清华集训2015]V (线段树)
  2. 【算法】动图展示八大常用排序算法,一次看个够!
  3. JIRA7.10迁移
  4. Protobuf序列化的原理-总结
  5. ubuntu自定义菜单_如何自定义Ubuntu的每日消息
  6. sql长整型_SQL 性能优化梳理
  7. Java泛型中的子类型化
  8. ffmpeg 纯静态编译,以及添加自定义库流程摘要
  9. 轻触开源(一)-Java泛型Type类型的应用和实践
  10. yaml 文件内部使用变量赋值的方式_spring boot 学习笔记5(application.yaml 配置文件)...
  11. C语言实例-大小写字母间的转换
  12. cvAdaptiveThreshold源代码的解析
  13. android问题:Installation error: INSTALL_FAILED_CONFLICTING_PROVIDER
  14. PHP中使用了mcrypt_decrypt函数处理Json Json_decode 返回空值或者 NULL 的问题 json_last_error 3...
  15. Chrome 大版本更新来了,这是一次「史诗级」增强
  16. PS导出字幕的一些细节
  17. MSP430指令初探
  18. html注册cab包,OCX控件打包成CAB并实现数字签名过程
  19. python--字符串
  20. 关于Visual Assistant X助手在定位函数及结构体成员变量不准确的问题

热门文章

  1. 数据分析方法论之RFM模型详解
  2. [从头读历史] 第303节 星球战争 起始:冷兵器战争的宏观架构
  3. windows10打开excel显示灰色的解决方案
  4. 猫眼电影爬虫(参考崔大的书写的)
  5. Linux设备驱动之udal341声卡驱动与madplay播放器移植
  6. JAWS模块分析(小东子)
  7. 回声状态网络(ESN)实现手写数字识别(MNIST)
  8. 基于Python 实现 Spirent TestCenter 自动化
  9. java 时区 夏令时_如何使用Java中的TimeZone解决夏令时问题
  10. 大数据时代电视剧市场的价值观转型