搜狗微信抓取(一)


前言

  • 搜狗微信反爬有两种验证码

    • 第一种是cookie,手动连续查询几次之后直接出现7位长度验证码,自己测试清除cookie之后可以继续访问,因此需要一个cookie池
    • 第二种是IP,同一IP访问频繁会出现四位长度验证码,所以需要一个IP池
      在之前获取某网站足球比分数据的时候也需要IP,那时候需要的要么是时效5分钟之上,数量一般,要么就是一次请求一个IP。结合两种,所以搭建了一个IP池
  • 最终项目部署在ubuntu上docker里面

环境依赖与工具使用

  • python3
  • redis
  • mysql 或mongo
  • docker
  • ubuntu server

步骤

  • 首先在服务器安装docker(安装略,明天会写详细流程)、redis、mysql活着mongo
  • 将已经搭建好的IP池和cookie池在docker内部署好
  • 编程步骤
    • 从IP池和cookie池内取出可用IP与cookie
    • 访问搜狗微信,根据关键字搜索获取对应文章链接(方式一),将URL存入redis集合,然后翻页重复,需设置最大深度
    • 搜索对应公众号,获取对应公众号下文章链接
      (方式二)存入redis集合
    • 从redis取出链接,此时链接域名已发生变化,几乎没有反爬,访问文章链接获取内容,存入数据库mysql或mongo
  • 部署
    • 在docker内部署容器运行编写好的程序
      由于docker会在明天写所以就集中到明天

在此感谢大佬的经验,IP池是在大佬代码基础上完善改进的,如有转载请注明大佬的链接…… https://me.csdn.net/qq_35193302

Sougou微信文章获取相关推荐

  1. 微信文章阅读数点赞数查询API接口及实现(小数据量)

    微信文章阅读数点赞数查询API接口及实现 研究过微信文章阅读和点赞数的同学都知道,如何获取这两个数字,关键在于获取微信有效的key.这个key的作用时间大概是2小时,而且也有访问频率的限制.访问频率可 ...

  2. 如何获取微信文章阅读数和点赞数

    最近微博感觉热度有所下降,而微信则越来越火,随着上次改版文章阅读的公开也预示着微信将向营销行业进军.尽管与之前腾讯的说法有些不搭,但毕竟这是块肥肉,最终还是hold 不住了.   阅读数和点赞数公开后 ...

  3. php 获取微信文章阅读量,获取微信公众号的文章的阅读数的实践(请求参数不支持文章 ID)...

    1.新的需求为:需要实现微信渠道的文章的阅读数的显示.如图1 图1 2.实则最为理想的情况,应该是能够基于文章 ID 获取此文章的阅读数,就像抖音.查看抖音开放平台文档 – 资源中心 – Open A ...

  4. 如何获取微信文章封面和标题

    前提 小程序需要一个获取微信文章封面和标题的功能,然后网上找了一圈,找到了下面这个代码,但是已经不能使用了,获取不到微信的标题,自己改动之后分享给有需要的人. 项目原作者git 数据结构 {title ...

  5. 自动获取微信公众号微信文章信息(每日自动推送)

    自动获取微信公众号微信文章信息 目录 前言 一.获取文章列表 二.自动化获取微信公众号cookie 1.影刀自动登录微信 2.获取公众号cookie 1.安装mitmproxy 2.配合切换代理脚本, ...

  6. 抓包获取微信文章阅读数实战

    首先需要获得一篇文章的地址 例如    https://mp.weixin.qq.com/s/S_g27h2KJPSb1NZ9DPM5Ig 我们在手机中访问 可以看到他的阅读数和点赞数 如下图 手机获 ...

  7. php获取微信文章阅读数,详解PHP+fiddler抓包采集微信文章阅读数点赞数的思路

    简介: 分析接口知道要获取文章阅读数和点赞数必须有key和uin这两个关键参数,不同公众号key不一样(据说有万能微信key,不懂怎么搞到),同一个公众号key大概半小时会过期 提交链接获取文章阅读量 ...

  8. fiddler抓包获取mysql密码_PHP+fiddler抓包采集微信文章阅读数点赞数的思路详解

    简介: 分析接口知道要获取文章阅读数和点赞数必须有key和uin这两个关键参数,不同公众号key不一样(据说有万能微信key,不懂怎么搞到),同一个公众号key大概半小时会过期 提交链接获取文章阅读量 ...

  9. php 获取企业号用户,微信企业号 获取用户信息(示例代码)

    业务操作最基础的一个功能是获取访客的身份,传统的获取方式是提供一个登录页面用以访客登录. 在微信企业号中,用户在微信中访问页面时,可以根据相关API获取此用户的微信账号信息,以此来匹配业务服务器存储的 ...

  10. python中接口测试垃圾数据如何清理_一个六年经验的python后端是怎么学习用java写API的(2)Extracter,微信文章抓取清洗入库...

    描述 pirate 是由我的 django 脚手架 original 实现的,文件上传提供了七牛和腾讯云两个 backend,部署提供了默认的配置文件,因此只要关注具体的微信的抓取逻辑即可. 核心表讲 ...

最新文章

  1. 灵活运用分布式锁解决数据重复插入问题
  2. mongodb 事务_初探MongoDB事务机制
  3. iptables实现路由转发
  4. Finacial professional
  5. 计算机网络之传输层:7、TCP拥塞控制
  6. android网络请求线程池,利用线程池实现Android客户端的http网络数据请求工具类
  7. Linux——RHCE试题与答案详解
  8. 计算机重启恢复到推荐分辨率,为什么重启之后电脑界面分辨率会变
  9. 鄂尔多斯打造西部云计算基地
  10. H5如何返回微信小程序
  11. 修改版本名称及手机型号
  12. JixiPix Premium Pack for Mac(创意照片特效软件)
  13. 《考试脑科学》读后感
  14. linux格式化后恢复 vmdk恢复,根据flat.vmdk文件恢复磁盘(完善版)
  15. 2020年8月中国编程语言排行榜
  16. android keystore 查看、修改密码和别名等
  17. 工厂生产管理流程有哪些环节?
  18. mac改变ipv4地址无法上网
  19. 数据结构学习笔记------图
  20. 编程语言中的“前浪”和“后浪”

热门文章

  1. SMC真空电磁阀气路接法
  2. NPDP产品经理认证考试培训资料--XISAI
  3. PA AE PR AI 2019注册机
  4. DNS服务器安装(linux)
  5. Linux傲腾DC128G内存设置,Intel傲腾DC可持续内存开放:单条512GB内存时代来临
  6. python电子病历交接班系统_嘉和电子病历系统用户手册
  7. java pojo类
  8. 移动端安全|Drozer针对Sieve渗透示范
  9. 高斯过程回归预测 C++代码实现
  10. 简易版的微信聊天存储方式