Sougou微信文章获取
搜狗微信抓取(一)
前言
- 搜狗微信反爬有两种验证码
- 第一种是cookie,手动连续查询几次之后直接出现7位长度验证码,自己测试清除cookie之后可以继续访问,因此需要一个cookie池
- 第二种是IP,同一IP访问频繁会出现四位长度验证码,所以需要一个IP池
在之前获取某网站足球比分数据的时候也需要IP,那时候需要的要么是时效5分钟之上,数量一般,要么就是一次请求一个IP。结合两种,所以搭建了一个IP池
- 最终项目部署在ubuntu上docker里面
环境依赖与工具使用
- python3
- redis
- mysql 或mongo
- docker
- ubuntu server
步骤
- 首先在服务器安装docker(安装略,明天会写详细流程)、redis、mysql活着mongo
- 将已经搭建好的IP池和cookie池在docker内部署好
- 编程步骤
- 从IP池和cookie池内取出可用IP与cookie
- 访问搜狗微信,根据关键字搜索获取对应文章链接(方式一),将URL存入redis集合,然后翻页重复,需设置最大深度
- 搜索对应公众号,获取对应公众号下文章链接
(方式二)存入redis集合 - 从redis取出链接,此时链接域名已发生变化,几乎没有反爬,访问文章链接获取内容,存入数据库mysql或mongo
- 部署
- 在docker内部署容器运行编写好的程序
由于docker会在明天写所以就集中到明天
- 在docker内部署容器运行编写好的程序
在此感谢大佬的经验,IP池是在大佬代码基础上完善改进的,如有转载请注明大佬的链接…… https://me.csdn.net/qq_35193302
Sougou微信文章获取相关推荐
- 微信文章阅读数点赞数查询API接口及实现(小数据量)
微信文章阅读数点赞数查询API接口及实现 研究过微信文章阅读和点赞数的同学都知道,如何获取这两个数字,关键在于获取微信有效的key.这个key的作用时间大概是2小时,而且也有访问频率的限制.访问频率可 ...
- 如何获取微信文章阅读数和点赞数
最近微博感觉热度有所下降,而微信则越来越火,随着上次改版文章阅读的公开也预示着微信将向营销行业进军.尽管与之前腾讯的说法有些不搭,但毕竟这是块肥肉,最终还是hold 不住了. 阅读数和点赞数公开后 ...
- php 获取微信文章阅读量,获取微信公众号的文章的阅读数的实践(请求参数不支持文章 ID)...
1.新的需求为:需要实现微信渠道的文章的阅读数的显示.如图1 图1 2.实则最为理想的情况,应该是能够基于文章 ID 获取此文章的阅读数,就像抖音.查看抖音开放平台文档 – 资源中心 – Open A ...
- 如何获取微信文章封面和标题
前提 小程序需要一个获取微信文章封面和标题的功能,然后网上找了一圈,找到了下面这个代码,但是已经不能使用了,获取不到微信的标题,自己改动之后分享给有需要的人. 项目原作者git 数据结构 {title ...
- 自动获取微信公众号微信文章信息(每日自动推送)
自动获取微信公众号微信文章信息 目录 前言 一.获取文章列表 二.自动化获取微信公众号cookie 1.影刀自动登录微信 2.获取公众号cookie 1.安装mitmproxy 2.配合切换代理脚本, ...
- 抓包获取微信文章阅读数实战
首先需要获得一篇文章的地址 例如 https://mp.weixin.qq.com/s/S_g27h2KJPSb1NZ9DPM5Ig 我们在手机中访问 可以看到他的阅读数和点赞数 如下图 手机获 ...
- php获取微信文章阅读数,详解PHP+fiddler抓包采集微信文章阅读数点赞数的思路
简介: 分析接口知道要获取文章阅读数和点赞数必须有key和uin这两个关键参数,不同公众号key不一样(据说有万能微信key,不懂怎么搞到),同一个公众号key大概半小时会过期 提交链接获取文章阅读量 ...
- fiddler抓包获取mysql密码_PHP+fiddler抓包采集微信文章阅读数点赞数的思路详解
简介: 分析接口知道要获取文章阅读数和点赞数必须有key和uin这两个关键参数,不同公众号key不一样(据说有万能微信key,不懂怎么搞到),同一个公众号key大概半小时会过期 提交链接获取文章阅读量 ...
- php 获取企业号用户,微信企业号 获取用户信息(示例代码)
业务操作最基础的一个功能是获取访客的身份,传统的获取方式是提供一个登录页面用以访客登录. 在微信企业号中,用户在微信中访问页面时,可以根据相关API获取此用户的微信账号信息,以此来匹配业务服务器存储的 ...
- python中接口测试垃圾数据如何清理_一个六年经验的python后端是怎么学习用java写API的(2)Extracter,微信文章抓取清洗入库...
描述 pirate 是由我的 django 脚手架 original 实现的,文件上传提供了七牛和腾讯云两个 backend,部署提供了默认的配置文件,因此只要关注具体的微信的抓取逻辑即可. 核心表讲 ...
最新文章
- 灵活运用分布式锁解决数据重复插入问题
- mongodb 事务_初探MongoDB事务机制
- iptables实现路由转发
- Finacial professional
- 计算机网络之传输层:7、TCP拥塞控制
- android网络请求线程池,利用线程池实现Android客户端的http网络数据请求工具类
- Linux——RHCE试题与答案详解
- 计算机重启恢复到推荐分辨率,为什么重启之后电脑界面分辨率会变
- 鄂尔多斯打造西部云计算基地
- H5如何返回微信小程序
- 修改版本名称及手机型号
- JixiPix Premium Pack for Mac(创意照片特效软件)
- 《考试脑科学》读后感
- linux格式化后恢复 vmdk恢复,根据flat.vmdk文件恢复磁盘(完善版)
- 2020年8月中国编程语言排行榜
- android keystore 查看、修改密码和别名等
- 工厂生产管理流程有哪些环节?
- mac改变ipv4地址无法上网
- 数据结构学习笔记------图
- 编程语言中的“前浪”和“后浪”