IP代理池Proxy_Pool使用教程(Windows版)
一、下载安装 proxy_pool
1. 系统环境
- Windows 7/8/10/11 64位
- Python 3 环境
2. 下载地址及参考文档
https://github.com/jhao104/proxy_pool
爬虫代理IP池项目,主要功能为定时采集网上发布的免费代理验证入库,定时验证入库的代理保证代理的可用性,提供API和CLI两种使用方式。同时你也可以扩展代理源以增加代理池IP的质量和数量。
3. 压缩包解压到本地
4. 打开 requirement.txt 安装依赖
win+R打开 运行,输入 “cmd” 打开 cmd.exe。
按照requirement.txt的内容,使用pip install
安装依赖。
pip install -y APScheduler==3.2.0 werkzeug==0.15.5 Flask==1.0 requests==2.20.0 click==7.0 gunicorn==19.9.0 lxml redis
输入pip list
可以查看已安装的依赖。
5. 安装 redis 数据库
proxy_pool 需要使用redis数据库。目前Windows下安装redis仅支持64位。
下载地址:https://github.com/tporadowski/redis/releases
安装教程可参考:https://www.runoob.com/redis/redis-install.html
下载对应zip压缩包,解压缩本地。
在redis目录文件夹右键启动powershell,并启动服务端。
PS D:\Redis-x64-5.0.14> .\redis-server.exe .\redis.windows.conf
另外启动一个新的powershell,并启动客户端,设置认证密码,这里简单设置为abc。
PS D:\Redis-x64-5.0.14> .\redis-cli.exe -h 127.0.0.1 -p 6379
127.0.0.1:6379> set myKey abc
OK
127.0.0.1:6379> get myKey
"abc"
127.0.0.1:6379>
设置好之后,需要修改redis目录下的redis.windows.conf文件中的requirepass为对应的认证密码。在此之前,关闭服务端powershell和客户端powershell。
requirepass abc
接着修改proxy_pool目录下的setting.py文件。
DB_CONN = 'redis://:abc@127.0.0.1:6379/0'
6. 安装 redis 数据库可视化工具【可选】
推荐使用RedisDesktopManager。
下载地址(作者提供免费下载):
https://download.csdn.net/download/weixin_43468923/80010501
二、使用 proxy_pool
1. 获取可用 IP 代理
在redis目录下启动powershell,打开redis服务端。
PS D:\Redis-x64-5.0.14> .\redis-server.exe .\redis.windows.conf
在proxy_pool目录下启动proxy_pool,作为redis客户端去访问redis服务端,刚才已在setting.py进行了端口、认证密码的设置。
proxy_pool有两种启动方式。
PS D:\proxy_pool-master> python proxyPool.py schedule
PS D:\proxy_pool-master> python proxyPool.py server
第一种主要在终端进行。
第二种可在浏览器显示
可通过proxy_pool目录下的setting.py文件进行设置。一般默认为本地地址,端口默认为5010。
打开浏览器,输入对应地址端口。http://127.0.0.1:5010/
会提示有以下选项(子目录),常用的是get目录或者all目录。
分别修改浏览器地址为http://127.0.0.1:5010/get/
和 http://127.0.0.1:5010/all/
。会显示出可供使用的IP代理,以及是否支持https。
2. 设置局部代理/全局代理
电脑、手机等终端设备的所有的网络数据,不管是玩游戏、QQ还是看视频看新闻,都从代理ip服务器或vpn服务器进行传输,这种方式我们称之为全局代理。
反之,只有某个程序或者某些程序的网络数据是通过代理ip服务器或vpn服务器进行传输的,那么,我们称它为局部代理。
局部代理:http/https代理 socks代理
HTTP代理:
www对于每一个上网的人都再熟悉不过了,www的链接请求就是采用的HTTP协议,所以我们在浏览网页和下载数据的时候,用到的就是HTTP代理。
HTTPS代理:
HTTPS即是超文本传输安全协议,它是由Netscape开发并内置于其浏览器中,用于对数据进行压缩和解压操作,并返回网络上传送回的结果。
HTTP和HTTPS是在Socks基础上,进行了数据封装,只专注业务,不考虑底层的数据传输。
Socks代理:
Socks是基于IP:Port套接字进行底层的数据传输,支持多种HTTP、FTP、ICMP等上层协议。
HTTP、HTTPS和Socks代理如何选择:
对于普通用户,一般使用HTTP或HTTPS即可;对于开发者用户,推荐使用Socks,比如微信开发。
局部代理:http/https代理设置
一般在浏览器的设置选项。设置好代理的IP地址和端口即可,之后通过浏览器浏览网页均经过代理服务器。
全局代理
打开计算机“网络和Internet”选项,找到“代理”选项,进行设置即可。
IP代理池Proxy_Pool使用教程(Windows版)相关推荐
- python爬虫ip代理池_爬虫教程-Python3网络爬虫开发——IP代理池的维护
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 准备工作 要实现IP代理池我们首先需要成功安装好了 Redis 数据库并启动服务,另外还需要安装 Aiohttp.Requests.RedisPy.PyQ ...
- Python爬虫实战之:快代理搭建IP代理池(简版)
目录 前言 项目背景 项目简介 前期准备 讲解1:项目搭建 讲解2:安装 faker 库获取user-agent 讲解3:分析 "快代理" 页面 讲解4:筛选有效IP 讲解5:Pa ...
- IP代理池proxy,自建,免费,详细教程
这篇文章教你如何白嫖免费代理网站构造自己的一个ip代理池,不在为反爬检测而烦恼. 思路就是找到一个免费ip网站,然后抓取上面的ip,去一个一个测试,能用的返回,不能用的扔掉. 网站:http://ww ...
- 开源IP代理池续——整体重构
开源IP代理池 继上一篇开源项目IPProxys的使用之后,大家在github,我的公众号和博客上提出了很多建议.经过两周时间的努力,基本完成了开源IP代理池IPProxyPool的重构任务,业余时间 ...
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...
- Scrapy ip代理池
一.概述 在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制,即在某一时间段内,当某个ip的访问次数达到一定的阀值时,该ip就会被拉黑.在一段时间内禁止访问. 应对的方法有两种: 1. 降低爬 ...
- 同时使用IP代理池和用户代理池(做笔记)
感觉自己写得很复杂 还是自己太low了 更新了ip格式 #Python3.6 不需要加http:// proxy_pool = {'http': '127.0.0.1:8080','https': ' ...
- Python之反爬虫手段(User-Agent,Cookie,Referer,time.sleep(),IP代理池)
现在的爬虫越来越难,各大网站为了预防不间断的网络爬虫,都相应地做出了不同的反爬机制,那么如何能够在不被封IP的情况,尽可能多得爬取数据呢?这里主要介绍到一些通用的反爬措施,虽然不一定适合所有网站,但是 ...
- 手把手教你用Python搭建IP代理池,轻松破解请求频率限制反爬虫~
我们所写的爬虫,它对服务器发出的网络请求频率要比正常用户的高的多,从而开发者可以将请求频率过高的用户视为爬虫程序,从而来限制爬虫程序. 今天志斌就来给大家分享一下,如何用Python搭建一个IP代理池 ...
- 5 使用ip代理池爬取糗事百科
从09年读本科开始学计算机以来,一直在迷茫中度过,很想学些东西,做些事情,却往往陷进一些技术细节而蹉跎时光.直到最近几个月,才明白程序员的意义并不是要搞清楚所有代码细节,而是要有更宏高的方向,要有更专 ...
最新文章
- InputStream、OutputStream、String的相互转换(转)
- linux如何用rz上传文件,Linux使用rz命令上传文件
- Blazor——Asp.net core的新前端框架
- abd.exe 需要下java吗_Abd.exe文件下载|
- C#开发WPF/Silverlight动画及游戏系列教程(Game Tutorial):(一)让物体动起来①
- 一键部署ETCD集群脚本
- 生物信息Python-从入门到精通?
- 20135202闫佳歆-期中总结
- correl函数相关系数大小意义_EXCEL中的相关系数能说明什么?
- 当前有哪些流行的前端开发框架?
- UMTS与WCDMA
- 第三方应用在通话过程中调用setspeakerphoneon没有用_从0到1打造一个 WebRTC 应用
- c语言编程单片机中的sbit,用sbit定义可位寻址的特殊功能寄存器时的地址转换-51单片机C编程...
- Soul网关源码学习(14)- hystrix,resilienc4j,sentinel 插件的使用和对比
- elementUi中的el-select/el-input去掉border边框
- call by value 和 call by reference
- 考研习惯打卡,日记记录app开发
- 土木工程成功转行程序员,真香~
- unity3d引擎缓存优化技术_Unity3d资源解决方案之AssetBundle
- Golden Gate 安装配置
热门文章
- 计算机类公务员提升空间,本人在公务员省考裸考申论61分,在之后还有多大的提升空间?...
- 锁屏后重新登录程序无响应问题分析
- 最短路径算法,Dijkstra算法,floyd算法 07-图4 哈利·波特的考试 (25 分)
- c语言怎么对大数求余,C语言:大数取余
- 如何用免费office表格制作课程表
- 万网域名是否注册批量查询工具
- Exchange 2007统一消息服务器功能概述
- Zookeeper(七)开源客户端
- 幅频特性曲线protues_频率响应,幅频特性,增益与相位裕量,波特图
- linux dropbox自动同步,Linux免dropbox客户端备份脚本