写在前面

最近跟静觅大神学习了维护代理池
就借此机会整理一下

整体思路

代理池主要分为4个模块:存储模块、获取模块、检测模块、接口模块

  • 存储模块:使用Redis有序集合,用来做代理的去重和状态标识
  • 获取模块:定时从代理网站获取代理,将获取的代理传递给存储模块,并保存到数据库
  • 检测模块:定时通过存储模块获取所有代理,并对代理进行检测,根据不同的检测结果对代理设置不同的标识
  • 接口模块:通过Web API提供服务接口,接口通过连接数据库并通过Web形式返回可用代理
    接下来,就一一实现这些模块吧。

存储模块

这里我们使用Redis的有序集合,集合的每一个元素都是不重复的。另外,有序集合的每一个元素都有一个分数字段。
对于代理池来说,这个分数可以作为判断一个代理是否可用的标志,100为最高分,代表最可用;0为最低分,代表不可用。
如果要获取代理,可以从代理池中随机获取分数最高的代理。

分数的设置规则:新获取的代理的分数为10,如果测试可行,分数立即置为100,检测到不可用就将分数减1,分数减至0后代理移除。

具体代码实现如下(ippool_save.py)

MAX_SCORE = 100 #最高分
MIN_SCORE = 0 #最低分
INITIAL_SCORE = 10  #初始分数
REDIS_HOST = 'localhost'
REDIS_PORT = 6379
REDIS_PASSWORD = None
REDIS_KEY = 'proxies' #键名import redis
from random import choiceclass PoolEmptyError():def __str__(self):return PoolEmptyErrorclass RedisClient(object):def __init__(self,host=REDIS_HOST,port=REDIS_PORT,password=REDIS_PASSWORD):'''初始化:param host:地址:param port: 端口号:param password: 密码'''self.db = redis.StrictRedis(host=host,port=port,password=password,decode_responses=True)def add(self,proxy,score=INITIAL_SCORE):'''添加代理,设置初始分数:param proxy: 代理:param score: 分数:return: 添加结果'''if not self.db.zscore(REDIS_KEY,proxy):return self.db.zadd(REDIS_KEY,{proxy:score})def random(self):'''随即获取有效代理,首先尝试获取最高分数代理,如果最高分数不存在,则按照排名获取:return:'''result = self.db.zrangebyscore(REDIS_KEY,MAX_SCORE,MAX_SCORE)if len(result):return choice(result)else:result = self.db.zrevrange(REDIS_KEY,0,100)if len(result):return choice(result)else:raise PoolEmptyErrordef decrease(self, proxy):'''代理值减一分,分数小于最小值,则代理删除:param proxy: 代理:return: 修改后的代理分数'''score = self.db.zscore(REDIS_KEY,proxy)if score and score>MIN_SCORE:print("代理",proxy,"当前分数",score,"减1")return self.db.zincrby(REDIS_KEY,-1,proxy)else:print("代理",proxy,"当前分数",score,"移除")return self.db.zrem(REDIS_KEY,proxy)def exists(self,proxy):'''判断是否存在:param proxy: 代理:return: 是否存在'''return not self.db.zscore(REDIS_KEY,proxy) == Nonedef max(self,proxy):'''将代理设置为MAX_SCORE:param proxy: 代理:return: 设置结果'''print("代理",proxy,"可用,设置为",MAX_SCORE)return self.db.zadd(REDIS_KEY,{proxy:MAX_SCORE})def count(self):'''获取数量:return:数量'''return self.db.zcard(REDIS_KEY)def all(self):'''获取全部代理:return: 全部代理列表'''return self.db.zrangebyscore(REDIS_KEY,MIN_SCORE,MAX_SCORE)

获取模块

获取模块的逻辑相对简单,首先要定义一个ippool_crawler.py来从各大网站抓取,具体代码如下:

import json
import requests
from lxml import etree
from ippool_save import RedisClientclass ProxyMetaclass(type):#参数依次是当前准备创建的类的对象;类的名字;类继承的父类集合;类的方法集合。def __new__(cls, name,bases,attrs):count = 0attrs['__CrawlFunc__'] = []for k,v in attrs.items():if 'crawl_' in k:attrs['__CrawlFunc__'].append(k)count+=1attrs['__CrawlFuncCount__'] = countreturn type.__new__(cls,name,bases,attrs)class Crawler(object,metaclass=ProxyMetaclass):def __init__(self):self.proxy = RedisClient().random()self.proxies = {'http': 'http://' + self.proxy,'https': 'https://' + self.proxy}def get_proxies(self,callback):proxies = []for proxy in eval("self.{}()".format(callback)):print('成功获取代理',proxy)proxies.append(proxy)return proxies#爬取西刺代理def crawl_xici(self,page_count=10):start_url = 'https://www.xicidaili.com/nn/{}'urls = [start_url.format(page) for page in range(1,page_count+1)]header = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}for url in urls:print('Crawling',url)data = requests.get(url,headers = header,proxies = self.proxies).content.decode("utf-8")print("data",len(data))if data:html = etree.HTML(data)trs = html.xpath('//table[@id="ip_list"]//tr[1]/following-sibling::*')for tr in trs:ip = tr.xpath('./td[2]/text()')port = tr.xpath('./td[3]/text()')if ip and port:yield ':'.join([ip[0],port[0]])#爬取89ipdef crawl_89(self,page_count=10):start_url = 'http://www.89ip.cn/index_{}.html'urls = [start_url.format(page) for page in range(1,page_count+1)]header = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}for url in urls:print('Crawling',url)data = requests.get(url,headers = header,proxies = self.proxies).content.decode("utf-8")if data:html = etree.HTML(data)trs = html.xpath('//table[@class="layui-table"]/tbody/tr')for tr in trs:ip = tr.xpath('./td[1]/text()')port = tr.xpath('./td[2]/text()')if ip and port:yield ':'.join([ip[0].strip(),port[0].strip()])

方便起见,我们将获取代理的每一个方法统一定义为以Crawl开头,这样扩展的时候只需要添加crawl开头的方法即可。

在这里,我实现抓取西刺代理与89免费代理,这些方法都定义成了生成器,通过yield返回一个个代理。
然后,定义了一个get_proxies()方法,将所有以crawl开头的方法调用一遍,获取每个方法返回代理并组合成列表形式返回。

那么,如何获取所有以crawl开头的方法名称呢?这里借助了元类来实现。
我们定义了一个ProxyMetaclass,Crawler将它设置为元类,元类中实现了__new__()方法,这个方法中的attrs参数包含了类的属性。我们只需要遍历attrs这个参数即可获得类方法中的所有信息,进而判断方法中是否包含crawl 。

所以,我们还需要定义一个Getter类,用来动态地调用所有以crawl开头的方法,然后获取抓取到的代理,将其加入到数据库存储起来,具体代码如下(ippool_getter.py)

from ippool_save import RedisClient
from ippool_crawler import CrawlerPOOL_UPPER_THRESHOLD = 1000class Getter():def __init__(self):self.redis = RedisClient()self.crawler = Crawler()def is_over_threshold(self):if self.redis.count() >= POOL_UPPER_THRESHOLD:return Trueelse:return Falsedef run(self):print("获取器开始执行")if not self.is_over_threshold():for callback_label in range(self.crawler.__CrawlFuncCount__):callback = self.crawler.__CrawlFunc__[callback_label]proxies = self.crawler.get_proxies(callback)for proxy in proxies:self.redis.add(proxy)

检测模块

我们已经将各个网站的代理都抓取下来了现在就需要一个检测模块来对所有代理进行多轮检测。
若检测代理可用,分数就设置为100,代理不可用,分数减1,这样就可以实时改变每个代理的可用情况。
由于代理的数量特别多,为了提高代理的检测效率,我们在这里使用异步请求库aiohttp来进行检测
具体代码如下(ippool_check.py):

VALID_STATUS_CODES = [200]
TEST_URL = "http://www.baidu.com"
BATCH_TEST_SIZE = 100from ippool_save import RedisClient
import aiohttp
import asyncio
import timeclass Tester(object):def __init__(self):self.redis = RedisClient()async def test_single_proxy(self,proxy):conn = aiohttp.TCPConnector(verify_ssl=False)async with aiohttp.ClientSession(connector=conn) as session:try:if isinstance(proxy,bytes):proxy = proxy.decode('utf-8')real_proxy = 'http://'+ proxyprint("正在测试",proxy)async with session.get(TEST_URL,proxy=real_proxy,timeout=15) as response:if response.status in VALID_STATUS_CODES:self.redis.max(proxy)print('代理可用',proxy)else:self.redis.decrease(proxy)print('请求响应码不合法',proxy)except (TimeoutError,ArithmeticError):self.redis.decrease(proxy)print('代理请求失败',proxy)def run(self):print('测试开始运行')try:proxies = self.redis.all()loop = asyncio.get_event_loop()for i in range(0,len(proxies),BATCH_TEST_SIZE):test_proxies = proxies[i:i+BATCH_TEST_SIZE]tasks = [self.test_single_proxy(proxy) for proxy in test_proxies]loop.run_until_complete(asyncio.wait(tasks))time.sleep(5)except Exception as e:print('测试器发生错误', e.args)

测试链接在这里定义为TEST_URL,如果针对某个网站有抓取需求,建议将TEST_URL设置为目标网站的地址。
另外,我们设置了批量测试的最大值BATCH_TEST_SIZE为100,也就是一批测试最多100个,这可以避免代理池过大时一次性测试全部代理导致内存开销过大的问题。

接口模块

为了更方便地获取可用代理,我们增加了一个接口模块。
使用Flask来实现这个接口模块,实现代码如下(ippool_api.py)

from flask import Flask,g
from ippool_save import RedisClient__all__ = ['app']
app = Flask(__name__)def get_conn():if not hasattr(g,'redis'):g.redis = RedisClient()return  g.redis@app.route('/')
def index():return '<h2>Welcome to Proxy Pool System</h2>'@app.route('/random')
def get_proxy():conn = get_conn()return conn.random()@app.route('/count')
def get_counts():conn = get_conn()return  str(conn.count())if __name__ == '__main__':app.run()

调度模块

调度模块就是调用以上定义的3个模块,将这3个模块通过多进程的形式运行起来。
最后,只需要调用Scheduler的run()方法即可启动整个代码池。

TESTER_CYCLE = 20
GETTER_CYCLE = 20
TESTER_ENABLED = True
GETTER_ENABLED = True
API_ENABLED = Truefrom multiprocessing import Process
from ippool_api import app
from ippool_getter import Getter
from ippool_check import Tester
import timeclass Scheduler():def schedule_tester(self,cycle=TESTER_CYCLE):tester = Tester()while True:print('测试器开始运行')tester.run()time.sleep(cycle)def schedule_getter(self,cycle=GETTER_CYCLE):getter = Getter()while True:print('开始抓取代理')getter.run()time.sleep(cycle)def schedule_api(self):app.run()def run(self):print('代理池开始运行')if TESTER_ENABLED:tester_process = Process(target=self.schedule_tester)tester_process.start()if GETTER_ENABLED:getter_process = Process(target=self.schedule_getter)getter_process.start()if API_ENABLED:api_process = Process(target=self.schedule_api)api_process.start()if __name__ == '__main__':Scheduler().run()

运行

以上就是整个代理池的架构和相应实现逻辑。
下面我们来运行一下吧~

去数据库中查看代理

使用接口随机获取可用代理

结语

代理池可以挑选出许多可用代理,但是常常稳定性不高、响应速度慢,而且这些代理通常是公共代理,可能不止一人同时使用,其ip被封的概率很大。另外,这些代理可能有效时间比较短,虽然代理池一直在筛选,但如果没有及时更新状态,也有可能获取到不可用代理。

所以,我们还可以考虑通过ADSL动态拨号的方式获取代理。

python爬虫-自建IP代理池相关推荐

  1. python爬虫之:IP代理池开源项目讲解

    Table of Contents 一.项目基本介绍 二.项目讲解 三.一些项目问题答疑 四.代理池设计 一.项目基本介绍 本项目来源于github,截止于2019/08/20,star数量:7133 ...

  2. python爬虫天天基金_不使用Python爬虫框架,多线程+代理池爬取天天基金网、股票数据...

    提到爬虫,大部分人都会想到使用Scrapy工具,但是仅仅停留在会使用的阶段.为了增加对爬虫机制的理解,我们可以手动实现多线程的爬虫过程,同时,引入IP代理池进行基本的反爬操作. 本次使用天天基金网进行 ...

  3. Python使用Redis实现IP代理池

    可以使用快代理,芝麻代理,蘑菇代理 ,讯代理等代理商提供API代理IP或者免费代理建立自己IP代理池 #使用apscheduler库定时爬取ip,定时检测ip删除ip,做了2层检测,第一层爬取后放入r ...

  4. python爬虫中的ip代理设置

    设置ip代理是爬虫必不可少的技巧: 查看本机ip地址:打开百度,输入"ip地址",可以看到本机的IP地址: 本文使用的是goubanjia.com里面的免费ip: 使用时注意要注意 ...

  5. 你爱我,我爱你,IP被封很头疼【Python爬虫实战:ip代理js逆向采集】

    大家好,我是辣条. 一见不日甚是...应该是一日不见甚是想念[串台了,这是郭德纲老师相声里的梗]. 直接进入今天的主题,相信学过爬虫的朋友们都知道爬虫封ip十分头疼,辣条今天带你获取免费ip代理 爬取 ...

  6. Python网络爬虫--Scrapy使用IP代理池

    自动更新IP池 写个自动获取IP的类proxies.py,执行一下把获取的IP保存到txt文件中去: 代码 # *-* coding:utf-8 *-* import requests from bs ...

  7. Python爬虫Scrapy框架IP代理的配置与调试

    在调试爬虫的时候,新手都会遇到关于ip的错误,好好的程序突然报错了,怎么解决,关于ip访问的错误其实很好解决,但是怎么知道解决好了呢?怎么确定是代理ip的问题呢?由于笔者主修语言是Java,所以有些解 ...

  8. Python 实现搭建本地IP代理池

    本文仅供学习交流使用,如侵立删!demo下载见文末 爬取:66ip免费代理 def get_66ip(self):"""抓取66ip免费代理:return:"& ...

  9. Python爬虫开发:ip代理的使用

最新文章

  1. 块格式化上下文(Block formatting contexts)
  2. SD-WAN是怎样简化企业网络和节省资金的?
  3. 润乾集算报表多样性数据源之动态SQL传递
  4. 【STM32】I2C详解
  5. SparkJavaAPI:join的使用
  6. EF里一对一、一对多、多对多关系的配置和级联删除
  7. Spark(Shuffle)
  8. Sublime Text编写80×86汇编.asm文件的语法高亮插件
  9. 机器视觉:系统中影响图像质量的因素有哪些?
  10. linux能力集机制,linux能力机制
  11. 磁盘IO单线程顺序写时最快的,如果多线程写,磁盘的磁头要不断重新寻址,所以写入速度反而会慢...
  12. 用Jprofile监控远程linux机器上的tomcat
  13. LaTeX:斜线表头的表格制作
  14. vue.js中created()与activated()的个人使用理解
  15. 【MATLAB深度学习工具箱】学习笔记--体脂估计算例再分析:拟合神经网络fitnet里面的数据结构】
  16. excel怎么按颜色统计单元格个数
  17. 毕业后,他年薪百万,我年薪刚破十万,人和人之间的差距怎么这么大?
  18. android html 布局设计工具,教你使用Android SDK布局优化工具layoutopt
  19. 【MobileViT】
  20. i人事CTO王景飞:i人事+计算巢,协同赋能HR业务

热门文章

  1. 楚留香鸿蒙点数哪里,楚留香命格攻略 命格面具属性点数选择获取技巧-游侠手游...
  2. oracle 11.1.0.7.24,11g Patchset 1 11.1.0.7 For Linux发布
  3. 使用谷歌浏览器插件“Postman Interceptor”自动将http请求发送给Postman
  4. Arduino UNO控制3.5inch ILI9486显示屏教程
  5. 算法总结-二分查找算法
  6. ListView的分组实现
  7. 在xcode 调试C++ 代码时出现的EXC_BAD_ACCESS 错误
  8. 激战2服务器不稳定,轻松畅快玩游戏 解决激战2掉线方法汇总
  9. Android代码混淆官方实现方法
  10. 程序的静态链接——链接和目标文件格式