GitHub - jhao104/proxy_pool: Python爬虫代理IP池(proxy pool)https://github.com/jhao104/proxy_pool/ProxyPool 爬虫代理IP池项目,主要功能为定时采集网上发布的免费代理验证入库,定时验证入库的代理保证代理的可用性,提供API和CLI两种使用方式。同时你也可以扩展代理源以增加代理池IP的质量和数量。

一、下载代码:

  • git clone
git clone git@github.com:jhao104/proxy_pool.git
  • releases
https://github.com/jhao104/proxy_pool/releases 下载对应zip文件

二、下载完安装依赖

cd proxy_pool
pip install -r requirements.txt

三、安装REDIS,默认端口,默认设置就好。

四、配置代理池设置

# -*- coding: utf-8 -*-
"""
-------------------------------------------------File Name:     setting.pyDescription :   配置文件Author :        JHaodate:          2019/2/15
-------------------------------------------------Change Activity:2019/2/15:
-------------------------------------------------
"""BANNER = r"""
****************************************************************
*** ______  ********************* ______ *********** _  ********
*** | ___ \_ ******************** | ___ \ ********* | | ********
*** | |_/ / \__ __   __  _ __   _ | |_/ /___ * ___  | | ********
*** |  __/|  _// _ \ \ \/ /| | | ||  __// _ \ / _ \ | | ********
*** | |   | | | (_) | >  < \ |_| || |  | (_) | (_) || |___  ****
*** \_|   |_|  \___/ /_/\_\ \__  |\_|   \___/ \___/ \_____/ ****
****                       __ / /                          *****
************************* /___ / *******************************
*************************       ********************************
****************************************************************
"""VERSION = "2.4.0"# ############### server config ###############
HOST = "0.0.0.0"PORT = 5010# ############### database config ###################
# db connection uri
# example:
#      Redis: redis://:password@ip:port/db
#      Ssdb:  ssdb://:password@ip:port
DB_CONN = 'redis://:@127.0.0.1:6379/0'# proxy table name
TABLE_NAME = 'use_proxy'# ###### config the proxy fetch function ######
PROXY_FETCHER = ["freeProxy01","freeProxy02","freeProxy03","freeProxy04","freeProxy05","freeProxy06","freeProxy07","freeProxy08","freeProxy09","freeProxy10"
]# ############# proxy validator #################
# 代理验证目标网站
HTTP_URL = "http://httpbin.org"HTTPS_URL = "https://www.qq.com"# 代理验证时超时时间
VERIFY_TIMEOUT = 10# 近PROXY_CHECK_COUNT次校验中允许的最大失败次数,超过则剔除代理
MAX_FAIL_COUNT = 0# 近PROXY_CHECK_COUNT次校验中允许的最大失败率,超过则剔除代理
# MAX_FAIL_RATE = 0.1# proxyCheck时代理数量少于POOL_SIZE_MIN触发抓取
POOL_SIZE_MIN = 20# ############# scheduler config ################## Set the timezone for the scheduler forcely (optional)
# If it is running on a VM, and
#   "ValueError: Timezone offset does not match system offset"
#   was raised during scheduling.
# Please uncomment the following line and set a timezone for the scheduler.
# Otherwise it will detect the timezone from the system automatically.TIMEZONE = "Asia/Shanghai"

五、启动项目

# 如果已经具备运行条件, 可用通过proxyPool.py启动。
# 程序分为: schedule 调度程序 和 server Api服务# 启动调度程序(方法一)
python proxyPool.py schedule# 启动webApi服务(方法二)
python proxyPool.py server

或者Docker运行

docker pull jhao104/proxy_pooldocker run --env DB_CONN=redis://:password@ip:port/0 -p 5010:5010 jhao104/proxy_pool:2.4.0

感兴趣的朋友自行测试研究

相关的代理池:

ProxyPool: 简易高效的代理池,提供如下功能:定时抓取免费代理网站,简易可扩展。使用 Redis 对代理进行存储并对代理可用性进行排序。定时测试和筛选,剔除不可用代理,留下可用代理。提供代理 API,随机取用测试通过的可用代理。https://gitee.com/kiang70/ProxyPool

ProxyPool 爬虫代理IP池(分享)相关推荐

  1. GitHub: ProxyPool 爬虫代理IP池

    hello,小伙伴们,大家好,今天给大家分享的开源项目是:proxy_pool,这个开源项目是抓取个大免费代理IP网站,感兴趣的爬虫可以尝试把代码clone下载然后尝试应用一下,加油!!! _____ ...

  2. ProxyPool 爬虫代理IP池安装与使用(附官方文档)

    安装: GitHub上关于ProxyPool的安装[胎教级教学]_FLIF的博客-CSDN博客_proxypool安装第一步:ProxyPool的下载与配置第二步:Redis的下载与配置第三步:验证是 ...

  3. Linux + ProxyPool 搭建属于爬虫代理IP池

    前言: 当爬虫达到一定速度时,大家都会遇到封Ip的情况,而搭建代理ip池是解决的最好方法,网络上有很多优秀的付费代理,但是作为白嫖党的我们又怎么能付钱那,本文将教会大家用一个成熟的开源项目搭建代理池. ...

  4. python 代理ip池_GitHub - xuan525/proxy_pool: Python爬虫代理IP池(proxy pool)

    ProxyPool 爬虫代理IP池 ______ ______ _ | ___ \_ | ___ \ | | | |_/ / \__ __ __ _ __ _ | |_/ /___ ___ | | | ...

  5. 如何建立爬虫代理ip池

    目录 一.为什么需要建立爬虫代理ip池 二.如何建立一个爬虫代理ip池 原文地址:https://www.cnblogs.com/TurboWay/p/8172246.html 一.为什么需要建立爬虫 ...

  6. python:从零开始教你建立爬虫代理ip池

    一.为什么需要建立爬虫代理ip池 在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制的,在某段时间内,当某个ip的访问量达到一定的阀值时,该ip会被拉黑.在一段时间内被禁止访问.这种时候,可以 ...

  7. python通过ip池爬_python 爬虫 代理ip池(适合初学者)

    初次学习python爬虫的朋友在频繁访问被爬取页面网站时都会被拦截,也就是限制ip.这里教教大家建立代理ip池. #!/usr/bin/env python3# -*- coding: utf-8 - ...

  8. Python爬虫-代理ip池建立

    代理IP池建立 前言 之前提到过urllib和requests的利用代理ip的访问方式 . https://blog.csdn.net/zhouchen1998/article/details/813 ...

  9. 搭建一个自己的百万级爬虫代理ip池.

    做爬虫抓取时,我们经常会碰到网站针对IP地址封锁的反爬虫策略.但只要有大量可用的代理IP资源,问题自然迎刃而解. 以前尝试过自己抓取网络上免费代理IP来搭建代理池,可免费IP质量参差不齐,不仅资源少. ...

最新文章

  1. Webpack学习-Loader
  2. H264解码的学习笔记
  3. Faster-RCNN的一些记录。
  4. 【learning】洲阁筛
  5. 选购安防交换机时需要注意哪些误区?
  6. 版本号控制-GitHub
  7. Java04异常、断言、日志和调试
  8. [react] 如何解决引用类型在pureComponent下修改值的时候,页面不渲染的问题?
  9. PHP防注入安全代码
  10. proxmox 控制台无法连接_Proxmox VE 5的SPICE控制台和虚拟机声音设置
  11. python tkinter 输入数字 小数_Python Tkinter教程 数字猜谜游戏
  12. 《托福写作——100 个替换词汇》
  13. 判断两条直线的位置关系
  14. 基金指数温度怎么算_投资指数基金的奇技淫巧——指数温度实战详解
  15. 第11章 角色页的删除、批量删除
  16. Spring AOP:搞清楚advice的执行顺序
  17. 匹兹堡计算机科学公司,匹兹堡大学计算机科学专业排名第49(2020年USNEWS美国排名)...
  18. 网站SEO站外建设速成手册,快速上排名、权重
  19. 前端重点---DNS和CDN
  20. Matlab中的DSP应用中的freqs函数

热门文章

  1. Iris+Redis实战项目应用
  2. 彼得-德鲁克管理思想分享与理解
  3. 2006年Kotara机器人
  4. 解决更新Windows10后,鼠标右键点击文件卡死
  5. conda activate激活环境出错的解决办法
  6. 笔记本保养之清灰、涂硅胶之重要性
  7. 首师大附中OJ系统 0025 中点位移的速度
  8. 【Scratch考级99图】图8-等级考试scratch绘制复杂图形双叠加错位正方形
  9. 【全网最强C语言学习】C语言入门篇(主线)——初识C语言①
  10. TCP/IP网络编程笔记-ch8.域名及网络地址