一、下载安装 proxy_pool

1. 系统环境

  • Windows 7/8/10/11 64位
  • Python 3 环境

2. 下载地址及参考文档

https://github.com/jhao104/proxy_pool
爬虫代理IP池项目,主要功能为定时采集网上发布的免费代理验证入库,定时验证入库的代理保证代理的可用性,提供APICLI两种使用方式。同时你也可以扩展代理源以增加代理池IP的质量和数量。

3. 压缩包解压到本地

4. 打开 requirement.txt 安装依赖



win+R打开 运行,输入 “cmd” 打开 cmd.exe。
按照requirement.txt的内容,使用pip install安装依赖。

pip install -y APScheduler==3.2.0 werkzeug==0.15.5 Flask==1.0 requests==2.20.0 click==7.0 gunicorn==19.9.0 lxml redis

输入pip list可以查看已安装的依赖。

5. 安装 redis 数据库

proxy_pool 需要使用redis数据库。目前Windows下安装redis仅支持64位。

下载地址:https://github.com/tporadowski/redis/releases

安装教程可参考:https://www.runoob.com/redis/redis-install.html

下载对应zip压缩包,解压缩本地。

在redis目录文件夹右键启动powershell,并启动服务端。

PS D:\Redis-x64-5.0.14> .\redis-server.exe .\redis.windows.conf


另外启动一个新的powershell,并启动客户端,设置认证密码,这里简单设置为abc。

PS D:\Redis-x64-5.0.14> .\redis-cli.exe -h 127.0.0.1 -p 6379
127.0.0.1:6379> set myKey abc
OK
127.0.0.1:6379> get myKey
"abc"
127.0.0.1:6379>


设置好之后,需要修改redis目录下的redis.windows.conf文件中的requirepass为对应的认证密码。在此之前,关闭服务端powershell和客户端powershell。

requirepass abc


接着修改proxy_pool目录下的setting.py文件。

DB_CONN = 'redis://:abc@127.0.0.1:6379/0'

6. 安装 redis 数据库可视化工具【可选】

推荐使用RedisDesktopManager
下载地址(作者提供免费下载):
https://download.csdn.net/download/weixin_43468923/80010501

二、使用 proxy_pool

1. 获取可用 IP 代理

在redis目录下启动powershell,打开redis服务端。

PS D:\Redis-x64-5.0.14> .\redis-server.exe .\redis.windows.conf

在proxy_pool目录下启动proxy_pool,作为redis客户端去访问redis服务端,刚才已在setting.py进行了端口、认证密码的设置。
proxy_pool有两种启动方式。

PS D:\proxy_pool-master> python proxyPool.py schedule
PS D:\proxy_pool-master> python proxyPool.py server

第一种主要在终端进行。

第二种可在浏览器显示

可通过proxy_pool目录下的setting.py文件进行设置。一般默认为本地地址,端口默认为5010。

打开浏览器,输入对应地址端口。http://127.0.0.1:5010/ 会提示有以下选项(子目录),常用的是get目录或者all目录

分别修改浏览器地址为http://127.0.0.1:5010/get/http://127.0.0.1:5010/all/。会显示出可供使用的IP代理,以及是否支持https。

2. 设置局部代理/全局代理

电脑、手机等终端设备的所有的网络数据,不管是玩游戏、QQ还是看视频看新闻,都从代理ip服务器或vpn服务器进行传输,这种方式我们称之为全局代理。

反之,只有某个程序或者某些程序的网络数据是通过代理ip服务器或vpn服务器进行传输的,那么,我们称它为局部代理。

局部代理:http/https代理 socks代理

HTTP代理:
  www对于每一个上网的人都再熟悉不过了,www的链接请求就是采用的HTTP协议,所以我们在浏览网页和下载数据的时候,用到的就是HTTP代理。
HTTPS代理:
  HTTPS即是超文本传输安全协议,它是由Netscape开发并内置于其浏览器中,用于对数据进行压缩和解压操作,并返回网络上传送回的结果。
  HTTP和HTTPS是在Socks基础上,进行了数据封装,只专注业务,不考虑底层的数据传输。
Socks代理
  Socks是基于IP:Port套接字进行底层的数据传输,支持多种HTTP、FTP、ICMP等上层协议。
HTTP、HTTPS和Socks代理如何选择:
  对于普通用户,一般使用HTTP或HTTPS即可;对于开发者用户,推荐使用Socks,比如微信开发。

局部代理:http/https代理设置

一般在浏览器的设置选项。设置好代理的IP地址和端口即可,之后通过浏览器浏览网页均经过代理服务器。

全局代理

打开计算机“网络和Internet”选项,找到“代理”选项,进行设置即可。

IP代理池Proxy_Pool使用教程(Windows版)相关推荐

  1. python爬虫ip代理池_爬虫教程-Python3网络爬虫开发——IP代理池的维护

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 准备工作 要实现IP代理池我们首先需要成功安装好了 Redis 数据库并启动服务,另外还需要安装 Aiohttp.Requests.RedisPy.PyQ ...

  2. Python爬虫实战之:快代理搭建IP代理池(简版)

    目录 前言 项目背景 项目简介 前期准备 讲解1:项目搭建 讲解2:安装 faker 库获取user-agent 讲解3:分析 "快代理" 页面 讲解4:筛选有效IP 讲解5:Pa ...

  3. IP代理池proxy,自建,免费,详细教程

    这篇文章教你如何白嫖免费代理网站构造自己的一个ip代理池,不在为反爬检测而烦恼. 思路就是找到一个免费ip网站,然后抓取上面的ip,去一个一个测试,能用的返回,不能用的扔掉. 网站:http://ww ...

  4. 开源IP代理池续——整体重构

    开源IP代理池 继上一篇开源项目IPProxys的使用之后,大家在github,我的公众号和博客上提出了很多建议.经过两周时间的努力,基本完成了开源IP代理池IPProxyPool的重构任务,业余时间 ...

  5. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...

  6. Scrapy ip代理池

    一.概述 在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制,即在某一时间段内,当某个ip的访问次数达到一定的阀值时,该ip就会被拉黑.在一段时间内禁止访问. 应对的方法有两种: 1. 降低爬 ...

  7. 同时使用IP代理池和用户代理池(做笔记)

    感觉自己写得很复杂 还是自己太low了 更新了ip格式 #Python3.6 不需要加http:// proxy_pool = {'http': '127.0.0.1:8080','https': ' ...

  8. Python之反爬虫手段(User-Agent,Cookie,Referer,time.sleep(),IP代理池)

    现在的爬虫越来越难,各大网站为了预防不间断的网络爬虫,都相应地做出了不同的反爬机制,那么如何能够在不被封IP的情况,尽可能多得爬取数据呢?这里主要介绍到一些通用的反爬措施,虽然不一定适合所有网站,但是 ...

  9. 手把手教你用Python搭建IP代理池,轻松破解请求频率限制反爬虫~

    我们所写的爬虫,它对服务器发出的网络请求频率要比正常用户的高的多,从而开发者可以将请求频率过高的用户视为爬虫程序,从而来限制爬虫程序. 今天志斌就来给大家分享一下,如何用Python搭建一个IP代理池 ...

  10. 5 使用ip代理池爬取糗事百科

    从09年读本科开始学计算机以来,一直在迷茫中度过,很想学些东西,做些事情,却往往陷进一些技术细节而蹉跎时光.直到最近几个月,才明白程序员的意义并不是要搞清楚所有代码细节,而是要有更宏高的方向,要有更专 ...

最新文章

  1. InputStream、OutputStream、String的相互转换(转)
  2. linux如何用rz上传文件,Linux使用rz命令上传文件
  3. Blazor——Asp.net core的新前端框架
  4. abd.exe 需要下java吗_Abd.exe文件下载|
  5. C#开发WPF/Silverlight动画及游戏系列教程(Game Tutorial):(一)让物体动起来①
  6. 一键部署ETCD集群脚本
  7. 生物信息Python-从入门到精通?
  8. 20135202闫佳歆-期中总结
  9. correl函数相关系数大小意义_EXCEL中的相关系数能说明什么?
  10. 当前有哪些流行的前端开发框架?
  11. UMTS与WCDMA
  12. 第三方应用在通话过程中调用setspeakerphoneon没有用_从0到1打造一个 WebRTC 应用
  13. c语言编程单片机中的sbit,用sbit定义可位寻址的特殊功能寄存器时的地址转换-51单片机C编程...
  14. Soul网关源码学习(14)- hystrix,resilienc4j,sentinel 插件的使用和对比
  15. elementUi中的el-select/el-input去掉border边框
  16. call by value 和 call by reference
  17. 考研习惯打卡,日记记录app开发
  18. 土木工程成功转行程序员,真香~
  19. unity3d引擎缓存优化技术_Unity3d资源解决方案之AssetBundle
  20. Golden Gate 安装配置

热门文章

  1. 计算机类公务员提升空间,本人在公务员省考裸考申论61分,在之后还有多大的提升空间?...
  2. 锁屏后重新登录程序无响应问题分析
  3. 最短路径算法,Dijkstra算法,floyd算法 07-图4 哈利·波特的考试 (25 分)
  4. c语言怎么对大数求余,C语言:大数取余
  5. 如何用免费office表格制作课程表
  6. 万网域名是否注册批量查询工具
  7. Exchange 2007统一消息服务器功能概述
  8. Zookeeper(七)开源客户端
  9. 幅频特性曲线protues_频率响应,幅频特性,增益与相位裕量,波特图
  10. linux dropbox自动同步,Linux免dropbox客户端备份脚本