GlidedSky爬虫-IP屏蔽1

题目描述

题目链接：http://glidedsky.com/level/crawler-ip-block-1

题目分析

本题是一道关于ip代理的题目，要想解决此题，必须获取大量的IP地址。目前网络上有很多免费的代理，但是经过我的测试，这些代理的可用性不强。提供付费代理的公司也有很多，但是大多价格不菲，我们没有必要为了做这一道题而花费大量的钱财。我最终选择的方案是使用付费代理公司的新用户免费体验服务，芝麻IP代理为新注册的用户提供了24小时10000个代理的体验服务，可以很好的满足本题对代理的使用需求，当然大家也可以自行选择其他的代理提供商，大部分都会有新用户免费体验的功能，没有必要为了做这道题而花钱购买代理。下面将介绍一下芝麻代理的使用方法。
打开芝麻IP代理的官网，按照提示信息进行账号注册和身份认证，这两项都完成之后即可获得24小时10000个短时ip使用权（不知道此活动什么时候会取消）。点击网站上方的“获取IP”进入IP提取配置页面，如下图所示。

首先选择提取类型，因为我的免费试用已经过期了，所以无法演示应该选择哪种类型，大家根据下拉列表应该能找到免费使用的类型。之后再设置一下提取数量，我在做这道题的时候设置的提取数量是50，不建议提取数量过大，因为IP提取出来之后只有25分钟的使用期，也不建议将提取数量设置为1，因为1秒钟最多只能请求一次IP。上面的两个选项设置好了之后，其余的可以采用默认设置，之后点击“生成API链接”即可看到提取IP的API链接，如下图所示。

针对本题，我们选用“直连IP”的API链接即可。我们可以点击右侧的“打开链接”以查看是否可以提取到指定数量的IP，正常情况下会弹出一个新的页面，上面显示了所有提取出来的IP地址和端口号，如下图所示。

现在我们已经有了提取IP的API链接了，但是此API还无法直接在python代码中使用，我们需要先将自己电脑的IP地址加入到白名单中。百度搜索“IP地址”，即可看到自己电脑使用的公网IP地址，将此IP地址复制下来，然后回到芝麻IP代理的网站中，点击上方的用户名，即可在页面左侧看到“IP白名单”选项，如下图所示。

点击“IP白名单”，根据页面提示将刚才复制的IP地址添加进去即可。我用的是移动的网络，在添加的时候提示我不支持添加移动网络IP，此问题可以找客服给解决。
IP地址的问题解决之后，剩下的就和爬虫基础题2差不多了，只不过在每次请求页面数据之前，都需要先获取一个新的IP地址，之后将此IP作为代理来请求页面数据。因为获取到的IP不一定可用，或者即便可用，网络状况也非常差，所以请求数据页面时加了5秒的超时时间，如果5秒钟之后还得不到页面数据，那么就换下一个IP代理重新请求。在实际爬取过程中发现，有的时候即便是用代理IP，也会出现403的情况，因此数据页请求完毕之后需要判断一下状态码是否为200，若不是，则更换一个新的IP重新请求数据页。此次数据爬取耗时会比之前的两道基础题长，因此建议用文件记录下每个数据页的数据，这样万一爬取过程中发生异常导致程序终止，可以避免再从头开始运行爬虫，而只需要从异常发生时正在爬取的那一页开始运行即可。

源代码

强烈建议大家趁着免费IP还没过期，把IP屏蔽2也一块做了，代码都是一样的。

from bs4 import BeautifulSoup
import requests
import re
import osparams = {'email': '',  #  你的邮箱地址'password': '', #  你的密码'_token': 's9OikhiHKa8CoplaD7g8sxXx6XnsCc5HRGj24znl',
}def get_proxy():num = 50url = 'http://webapi.http.zhimacangku.com/getip?num={}&type=1&pro=&city=0&yys=0&port=1&pack=156622&ts=0&ys=0&cs=0&lb=1&sb=0&pb=4&mr=2&regions='.format(num)for _ in range(140):rp = requests.get(url)proxy = rp.text.split('\r\n')if proxy[0].find('code') >= 0:print('获取ip失败，即将进行下一次尝试')continueproxy.remove('')for p in proxy:yield pdef login():url = 'http://glidedsky.com/login'session = requests.Session()r = session.get(url)html = r.textresult = re.search('input type="hidden" name="_token" value="(.*?)"', html)_token = result.group(1)params['_token'] = _tokensession.post(url=url, data=params)return sessiondef parse(html, idx):page_sum = 0soup = BeautifulSoup(html, 'lxml')numbers = soup.select('.col-md-1')f = open('log.txt', mode='at')f.write(str(idx) + ':\t')for number in numbers:page_sum += int(number.string.strip())f.write(number.string.strip() + '\t')f.write(str(page_sum) + '\n')f.close()return page_sumdef crawler():session = login()base_url = 'http://glidedsky.com/level/web/crawler-ip-block-2?page='k = 1ans = 0if not os.path.exists('log.txt'):f = open('log.txt', mode='wt')f.close()for proxy in get_proxy():if k == 1001:print('answer: ' + str(ans))breakif proxy is None:print('proxy is None')continueproxies = {'http': 'http://' + proxy,'https': 'https://' + proxy,}url = base_url + str(k)try:r = session.get(url, proxies=proxies, timeout=5)except requests.Timeout:print('当前ip可能有点问题，将会自动更换下一个')continueif r.status_code == 403:print('此IP已经被封禁，将更换下一个IP重新爬取')if r.status_code != 200:continueans += parse(r.text, k)print(str(k) + '\t\t' + str(ans))k += 1print(ans)if __name__ == '__main__':crawler()