adsl拨号服务器构建代理池
一、工具准备
- 动态vps: 我用的是云立方的动态vps,0.5G内存,11G硬盘,20G宽带,一年1800元,动态vps主要是运行代理服务,比较耗宽带,通过拨号来更换IP,实现动态代理的效果
- 固定IP服务器:用的阿里云服务器,1核1G内存,40G云盘,一年836元,该服务器主要是实时获取动态vps的IP,并对外提供接口,这些服务不怎么耗资源,该服务器还可以用来跑爬虫或者搭网站
二、环境搭建
动态vps
- 功能:搭建代理服务,并通过在vps上拨号切换IP,将切换后的IP传到固定IP的服务器上
- 工具:代理服务-tinyproxy, 发送IP-python的requests库
- 系统:云立方的可以预装系统,我选的是CentOS7.1系统,在管理后台进行操作
- 连接服务器:ssh user@ip -p port
- 拨号操作:断开网络:adsl-stop, 拨号:adsl-start
- 查看公网IP:curl icanhazip.com
- 加代理查看IP:curl -x ‘ip:port’ -v icanhazip.com
- 判断IP是否变化:先查看公网IP,然后断开连接,重新拨号,再看下公网IP,如果发现没有变化,可以多试几次,有几率重播后公网IP依旧没变
1、代理服务搭建:tinyproxy
安装命令:
# 添加EPEL仓库,然后更新yum源:
sudo yum install epel-release
sudo yum update
# 安装
sudo yum install -y tinyproxy
修改配置:
vim /etc/tinyproxy/tinyproxy.conf
修改 Port 端口,默认为 8888
Port 8888
注释掉 Allow 127.0.0.1,表示允许所有人访问代理
启动服务:service tinyproxy start
日志:/var/log/tinyproxy/tinyproxy.log
本地测试:curl -x ‘ip:port’ -v icanhazip.com
注意点&坑:
我一开始用的芝麻VPS,到这一步后,在vps上用局域网IP可以通过代理服务器访问,但在本地通过公网IP就无法访问,最后发现是由于外网无法访问该服务器,试过开放端口等操作,无果,云立方的是直接可以通过公网IP使用代理
yum安装时,报错:yum doesn’t have enough cached data to continue, 解决办法:
- 将/etc/yum.repos.d/epel.repo中的mirrorlist改为baseurl
- /etc/resolv.conf文件中增加 nameserver 144.144.144.144
在断开重播时,有时adsl-start会执行失败,报错:“/usr/sbin/adsl-start: line 217: 5749 Terminated CONNECT"CONNECT "CONNECT"@" > /dev/null 2>&1”,最后发现可能是断开连接的不干净,多执行几次adsl-stop,在执行adsl-start就会成功了
在代理服务tinyproxy运行期间,报过这个错:Waiting servers (0) is less than MinSpareServers (5). Creating new child.,原因是达到最大连接数,无法创建新的连接处理请求,代理服务也就挂了,重启代理服务即可,解决办法
- 定时重启tinyproxy服务
- 修改配置
vim /etc/tinyproxy/tinyproxy.conf MaxClients 100 -> 500 # 最大连接数 Timeout 600 -> 20 # 超时时间
2、搭建Python环境
(1) 安装Python
Python依赖
sudo yum install yum-utils
sudo yum-builddep python
Python源码连接:https://www.python.org/ftp/python/
curl -O https://www.python.org/ftp/python/3.5.0/Python-3.5.0.tgz
我在用curl时无法下载,可以到官网下载指定版本的Python,然后传到服务器上
tar xf Python-3.5.0.tgz
cd Python-3.5.0
./configure
make
sudo make install
安装完成后通过python3 -V来查看当前版本
(2) 安装虚拟环境
cd ~
mkdir venv
cd venv
python3 -m venv python3-forcrawl
source ~/venv/python3-forcrawl/bin/activate
(3) 安装相应的python库
pip install requests
# 安装其他环境导出的库
pip install -r requirements.txt
阿里云服务器:
- 功能:接受动态VPS发送的IP,并提供接口,返回动态VPS实时的IP&端口
- 工具:web服务-tornado
- 连接:ssh root@ip -p 22, 如果忘记服务器密码,可以重置实例登陆密码和远程连接密码:更多->密码、秘钥
- 搭建Python环境同上,安装tornado
pip install tornado
- redis数据库
sudo yum install -y redis
# 启动服务
redis-server >> /dev/null 2>&1 &
# 连接redis
redis-cli
- mongo数据库(可以不进行安装,实现基本的代理功能不需要该库)
# yum中没有mongo的下载源,需要手动添加
vi /etc/yum.repos.d/mongodb-org-3.4.repo
# 写入以下信息,针对centos7
[mongodb-org-3.4]
name=MongoDB Repository
baseurl=https://repo.mongodb.org/yum/redhat/7/mongodb-org/3.4/x86_64/
gpgcheck=1
enabled=1
gpgkey=https://www.mongodb.org/static/pgp/server-3.4.asc
# 安装
sudo yum install -y mongodb-org
启动:
systemctl start mongod.service
注意点&坑:
- ssh链接时,报错Permission denied (publickey,gssapi-keyex,gssapi-with-mic),解决办法:
- 通过阿里云web终端登录到服务器,修改ssh配置文件
vim /etc/ssh/sshd_config
更改:PasswordAuthentication no(默认yes)
或打开注释:PermitRootLogin yes
- 通过阿里云web终端登录到服务器,修改ssh配置文件
代码实现逻辑
1、客户端:动态vps
- 通过Python执行断开连接&拨号的操作,成功后匹配获取公网IP,通过requests库将IP发送至服务端
- 为了避免恶意干扰,可以加上一个传输秘钥,服务器验证传输秘钥,验证失败的不进行IP更新
- 设置定时任务来实现IP的更换
- 传送的数据中,包含IP、秘钥、name(区分vps服务器)
2、服务端:固定IP服务器
使用tornado启动服务,提供两个接口
- post接口:接收客户端发送的IP,验证秘钥成功后,以name为key,ip&port为val,存入redis
- get接口:从redis中取出ip&port并返回
代理检测程序:可用于检测IP的可用性,剔除失效IP
总结
- 相对直接购买代理,价格更便宜,且速度不受限制,但是缺点是,在vps拨号,到传输到服务器,再到爬虫使用代理,这个过程存在延迟,可能在切换IP时,会导致代理不可用,解决方案是设置超时时间并休眠几秒后进行重试
- 不适用于对IP切换速度要求很快的服务,拨号太频繁了,一个是IP有时不变,另一个容易拨号失败
- 如果在线上环境中使用,可以多买几台动态vps,搞一个IP池
- 代码实现见:https://github.com/HLFYY/spiders/tree/master/adsl_server
adsl拨号服务器构建代理池相关推荐
- python爬虫面试代理池_python - 如何为爬虫构建代理池
问 题 为了避免爬虫被封 IP ,网上搜索教程说需要建立代理池.但是付费代理都好贵...不过好在网上已经有不少免费提供代理的网站了.因此,我打算写个爬虫去获取这些免费 IP - 策略步骤 用种子关键词 ...
- 免费的高匿名爬虫代理池不求人|高可用、高匿名、代理池详解及搭建推荐
文章目录 关于代理的分类: 透明代理(Transparent Proxy) 匿名代理(Anonymous Proxy) 混淆代理(Distorting Proxies) 高匿代理(Elite prox ...
- Python使用Tornado+Redis维护ADSL拨号服务器代理池
们尝试维护过一个免费的代理池,但是代理池效果用过就知道了,毕竟里面有大量免费代理,虽然这些代理是可用的,但是既然我们能刷到这个免费代理,别人也能呀,所以就导致这个代理同时被很多人使用来抓取网站,所以当 ...
- 使用Tornado+Redis维护ADSL拨号服务器代理池
我们尝试维护过一个免费的代理池,但是代理池效果用过就知道了,毕竟里面有大量免费代理,虽然这些代理是可用的,但是既然我们能刷到这个免费代理,别人也能呀,所以就导致这个代理同时被很多人使用来抓取网站,所以 ...
- python代理ip多进程_静听网+python爬虫+多线程+多进程+构建IP代理池
目标网站:静听网 网站url:http://www.audio699.com/ 目标文件:所有在线听的音频文件 附:我有个喜好就是晚上睡觉听有声书,然而很多软件都是付费才能听,免费在线网站虽然能听,但 ...
- 搭建ADSL自动拨号高匿代理池
搭建ADSL自动拨号高匿代理池 adsl这种服务器网上有很多, 各位自己选择一个服务商购买就行. 搭建服务器环境: centos7 64位 首先购买后,连上服务器先进行拨号, 我这里的拨号命令是 pp ...
- 静听网+python爬虫+多线程+多进程+构建IP代理池
目标网站:静听网 网站url:http://www.audio699.com/ 目标文件:所有在线听的音频文件 附:我有个喜好就是晚上睡觉听有声书,然而很多软件都是付费才能听,免费在线网站虽然能听,但 ...
- Python爬虫技巧一之设置ADSL拨号服务器代理
Python爬虫技巧一之设置ADSL拨号服务器代理 https://zhuanlan.zhihu.com/p/25286144
- 爬虫采集自己构建代理ip池有什么优势?
为何一些爬虫采集的专业技术人员购买了代理ip还会继续自己构建一个ip池,自己构建ip池有什么优势? (1)可无限制的调用API获取代理ip; 购买收费的代理ip,绝大多数都会提供API链接接口,客户利 ...
- 爬虫入门学习(七)IP学习与代理池构建
爬虫入门学习(七)IP学习与代理池构建 1 IP简介 2 IP被封的原因 3 应对IP被封的策略 3.1 伪造User-Agent 3.2 设置线程等待sleep() 3.3 伪造Cookies 3. ...
最新文章
- 软件测试黑盒测试实验心得_软件测试的基础知识
- Android Scroller简单用法
- soundex mysql_MySQL SOUNDEX()用法及代码示例
- index.html文件作用,MEAN JS – 主要的html文件(index.html)位于何处
- linux内核杂记(2)-内核的同步与并发
- linux-shell命令之mv(move)【移动或者改名】
- 推自己的镜像到网易云
- esx4.0 tpm模块初始化失败
- html中哪些属于块级标记,html行级标记和块级标记都有哪些?
- java特定用户登录_求教!!!用 jsp+servlet 怎样控制指定用户名登录页面啊!
- 【行为识别】基于matlab轨迹法行为识别【含Matlab源码 375期】
- statspack系列7
- steam失落的方舟入库python脚本
- mysql如何实现cas机制_CAS机制详解
- 《东周列国志》第二十八回 里克两弑孤主 穆公一平晋乱
- postman tests
- java 拼图游戏_Java 拼图游戏
- 数据库SUSPECT(置疑)状态如何解决
- win7系统安装高版本node
- yii2 controller behaviors 函数的 那些事儿
热门文章
- 斯坦福NLP名课带学详解 | CS224n 第17讲 - 多任务学习(以问答系统为例)(NLP通关指南·完结)
- 单细胞及空间转录组设计分析与机器学习在生物医学应用
- 上海交通大学考研网络安全专业823复习策略
- rpm -qa的意思详解
- 基于FPGA的LVDS接口设计
- ppt上显示无法显示图片计算机可能,把手机里做好的PPT导入电脑,为何有些图片会显示不出来?该如何解决?...
- Python爬取EF每日英语资源
- Cocos2d摄像机详解
- FXTM富拓:美数据亮眼,美元这是要涨了?
- forEach终止循环