搜狗微信文章爬取（上）

前言

weixin.sogou.com 是一个反爬极其严厉的站点。

想要通过搜狗提供的 API 爬取微信公众号，你必须对以下几点印象深刻：

weixin.sogou.com 的 URL 构造，这是爬虫工程师的基本功。
在不登录的情况下只能浏览前十页。
在登录的情况下只能爬取前一百页。
搜狗微信 的反爬措施是封 IP 和封 Cookie。
如果每五秒翻一页，大概翻二十页你会触发反爬：

我们今天不通过破解验证码的方式来突破反爬虫，在封 IP 和封 Cookie 两项措施中，最为严重的就是封 Cookie。如上图，其实并不是你的 IP 被封禁，而是你的 Cookie 被封禁。

事实上，对于一百页的爬取页面，一个健康的 IP 足矣。

以下，我们将从破解封禁 Cookie 破解封禁 IP 和展开讨论。

破解封禁Cookie

想要了解如何破解封禁 Cookie，我们必须先对互联网的 Cookie 和 Session 工作机制进行了解。

我们访问一个网站，过程大概分为四步。

第一步是我们的客户端向网站的服务器端发送一个 HTTP 请求，第二步服务器端发送一个 HTTP 响应到客户端，其中包含 Set-Cookie 头部。第三步客户端发送一个 HTTP 请求到服务器端，其中包含 Cookie 头部。第四步服务器端返回一个 HTTP 响应到客户端。

如图所示：

我为什么大费周章的去聊 Cookie 和 Session 呢？

要知道爬取 sogou.weixin.com 的 HTTP 请求的 Cookie 中，必须包含四个参数：SNUID 、SUID、ppinf 和ppmdig。

其中 SNUID 和 SUID 是访问 sogou.weixin.com 必须的，

而 ppinf 和 ppmdig 是访问后十页必须的。

对于禁封 Cookie，主要是禁封参数 SNUID。假如你解除了下图的验证码封禁，其实只是给你传送了一个新的参数 SNUID。

那么解决 Cookie 的封禁问题的答案就随之而来啦，只要我们构造一个 SNUID 参数池，我们姑且叫构造一个 Cookie 池吧。当我们的请求返回的状态码是 302 时，我们就使用一个全新的请求头，这时我们就可以成功突破 Cookie 的封禁。

那么我们如何构造这样一个 Cookie 池呢？

我们先在浏览器设置里清除客户端缓存的 Cookie：

再访问 sogou.weixin.com :

在这个链接的响应头里我们清晰的看到了带有 SNUID 参数的 Set-Cookie 。

我们只要不断调用代理去访问：

https://weixin.sogou.com/weixin?type=2&query=宝多六花&ie=utf8&s_from=input&sug=n&sug_type=&w=01019900&sut=205&sst0=1543168556321&lkt=1%2C1543168556219%2C1543168556219

在响应头中就能提取出源源不断的 SNUID 参数。

破解封禁IP

当你的 IP 被封禁的时候，服务器可能给你返回的是 ”10054“，又或者“服务器积极地拒绝你的请求”。

而且，短时间内，你可能无法访问目标网站，这可是非常严肃的事情。

如何防止这种情况发生呢？

在碰到使用 IP 的情况时，我非常推荐开启 Shadowsocks 或者 v2rayN 的全局代理模式，使用虚拟 IP 可以有效防止我们的本源 IP 被封禁。

还有就是构造我们的代理池，使用代理进行爬取。

代理清洗

我上一篇文章写了构建代理池，免费的代理的使用率极低，我们非常有必要进行代理清洗。

首先把我们已经爬好的代理删除，不用害怕，我们的代理池足够强壮，几小时代理数量又能回到一千。

再找到 setting.py 文件，把里面的参数 TEST_URL 改成 “https://weixin.sogou.com”。

构建Cookie池

我们首先想到用 Redis 数据库来保存我们爬取的 SNUID 参数。

那么我们先编写一个 db.py ，保存和 Redis 数据库相关的函数。

db.py

import redis# Redis数据库地址
REDIS_HOST = 'localhost'# Redis端口
REDIS_PORT = 6379# Redis密码，如无填None
REDIS_PASSWORD = NoneREDIS_KEY = 'SougouWeixin'class RedisClient(object):def __init__(self, host=REDIS_HOST, port=REDIS_PORT, password=REDIS_PASSWORD):"""初始化:param host: Redis 地址:param port: Redis 端口:param password: Redis密码"""self.db = redis.StrictRedis(host=host, port=port, password=password, decode_responses=True)def push(self, snuid):"""从列表头部插入snuid，:param snuid: 参数 snuid:return: 添加结果"""self.db.lpush(REDIS_KEY, snuid)def pop(self):"""移出并获取列表的最后一个元素， 如果列表没有元素会阻塞列表直到等待超时或发现可弹出元素为止。:return: 尾部的snuid"""return self.db.brpop(REDIS_KEY)def count(self):"""获取数量:return: 数量"""return self.db.llen(REDIS_KEY)

我们以前讲到了 Redis 数据库支持的数据类型有字符串，散列，列表，集合，这里我们选用的数据类型是列表。

为什么选用列表呢？

因为列表有序，我们用列表的 lpush() 函数，实现对列表左侧添加 SNUID ，用 brpop() 函数实现调用列表最右边的 SNUID 。

我们再在 db.py 中添加下列几项，可以方便我们提取代理。

from random import choice
from cookiespool.error import PoolEmptyErrorPROXY_REDIS_KEY = 'proxies'
#最大评分
MAX_SCORE = 100
MIN_SCORE = 0def random(self):"""随机获取有效代理，首先尝试获取最高分数代理，如果不存在，按照排名获取，否则异常:return: 随机代理"""result = self.db.zrangebyscore(PROXY_REDIS_KEY, MAX_SCORE, MAX_SCORE)if len(result):return choice(result)else:result = self.db.zrevrange(PROXY_REDIS_KEY, 0, 100)if len(result):return choice(result)else:raise PoolEmptyErrordef decrease(self, proxy):"""代理值减一分，小于最小值则删除:param proxy: 代理:return: 修改后的代理分数"""score = self.db.zscore(PROXY_REDIS_KEY, proxy)if score and score > MIN_SCORE:print('代理', proxy, '当前分数', score, '减1')return self.db.zincrby(PROXY_REDIS_KEY, proxy, -1)else:print('代理', proxy, '当前分数', score, '移除')return self.db.zrem(PROXY_REDIS_KEY, proxy)

紧接着我们编写一个名为 spider.py 的文件，里面装载爬取 SNUID 参数的代码。

值得注意的是，在爬取 SNUID 的过程中，我们只要寻找到一个可用的代理，然后使用该代理不停循环，不断从响应头里提取成百上千个 SNUID ，这部分的反爬并不严重。

而无效的代理，我们执行扣分程序，并且不想再看到它。

import re
import time
import requests
from cookiespool.db import RedisClient#爬取间隔
SLEEPTIME = 10headers = {'Host': 'weixin.sogou.com','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2','Accept-Encoding': 'gzip, deflate, br','Referer': 'https://weixin.sogou.com/','Connection': 'keep-alive','Upgrade-Insecure-Requests': '1',
}
url = 'https://weixin.sogou.com/weixin?type=2&query=nba&s_from=input&_sug_=n&_sug_type_=&w=01019900&sut=5296&sst0=1543167134916&lkt=10%2C1543167129476%2C1543167134813'class Spider():def __init__(self):self.redis = RedisClient()def getHTML(self):proxy = self.redis.random()proxies = {'http': 'http://' + proxy,'https': 'https://' + proxy,}try:r = requests.get(url, allow_redirects=False, headers=headers, proxies=proxies, timeout=30)print('正在使用：', proxy)if r.status_code == 200:header = r.headersprint(header)snuid = re.findall('(SNUID=.*?;)', header['Set-Cookie'])print(snuid)if len(snuid) != 0:self.redis.push(snuid[0])print('Redis插入:', snuid[0])while snuid != None:self.circle(proxy)time.sleep(SLEEPTIME)else :self.redis.decrease(proxy)else:self.redis.decrease(proxy)except TimeoutError:passdef circle(self, proxy):proxies = {'http': 'http://' + proxy,'https': 'https://' + proxy,}try:r = requests.get(url, allow_redirects=False, headers=headers, proxies=proxies)print('循环代理：', proxy)if r.status_code == 200:header = r.headersprint(header)snuid = re.findall('(SNUID=.*?;)', header['Set-Cookie'])if len(snuid) != 0:self.redis.push(snuid[0])print('Redis插入:', snuid[0])return snuidelse:snuid = Nonereturn snuidexcept:snuid = Nonereturn snuid

最后我还编写了可有可无的 api.py ,它可以提供调用 SNUID 的接口，这里不费笔墨。

代码同步在 GitHub 上，成功构建代理池后，我们将在下节正式爬取 sogou.weixin.com 。

最后

欢迎关注我的公众号爬虫小栈。