一、工具准备

  • 动态vps: 我用的是云立方的动态vps,0.5G内存,11G硬盘,20G宽带,一年1800元,动态vps主要是运行代理服务,比较耗宽带,通过拨号来更换IP,实现动态代理的效果
  • 固定IP服务器:用的阿里云服务器,1核1G内存,40G云盘,一年836元,该服务器主要是实时获取动态vps的IP,并对外提供接口,这些服务不怎么耗资源,该服务器还可以用来跑爬虫或者搭网站

二、环境搭建

动态vps

  • 功能:搭建代理服务,并通过在vps上拨号切换IP,将切换后的IP传到固定IP的服务器上
  • 工具:代理服务-tinyproxy, 发送IP-python的requests库

  • 系统:云立方的可以预装系统,我选的是CentOS7.1系统,在管理后台进行操作
  • 连接服务器:ssh user@ip -p port
  • 拨号操作:断开网络:adsl-stop, 拨号:adsl-start
  • 查看公网IP:curl icanhazip.com
  • 加代理查看IP:curl -x ‘ip:port’ -v icanhazip.com
  • 判断IP是否变化:先查看公网IP,然后断开连接,重新拨号,再看下公网IP,如果发现没有变化,可以多试几次,有几率重播后公网IP依旧没变
1、代理服务搭建:tinyproxy

安装命令:

# 添加EPEL仓库,然后更新yum源:
sudo yum install epel-release
sudo yum update
# 安装
sudo yum install -y tinyproxy

修改配置:

vim /etc/tinyproxy/tinyproxy.conf
修改 Port 端口,默认为 8888
Port 8888
注释掉 Allow 127.0.0.1,表示允许所有人访问代理

启动服务:service tinyproxy start
日志:/var/log/tinyproxy/tinyproxy.log
本地测试:curl -x ‘ip:port’ -v icanhazip.com

注意点&坑:

  • 我一开始用的芝麻VPS,到这一步后,在vps上用局域网IP可以通过代理服务器访问,但在本地通过公网IP就无法访问,最后发现是由于外网无法访问该服务器,试过开放端口等操作,无果,云立方的是直接可以通过公网IP使用代理
  • yum安装时,报错:yum doesn’t have enough cached data to continue, 解决办法:
    • 将/etc/yum.repos.d/epel.repo中的mirrorlist改为baseurl
    • /etc/resolv.conf文件中增加 nameserver 144.144.144.144
    • 在断开重播时,有时adsl-start会执行失败,报错:“/usr/sbin/adsl-start: line 217: 5749 Terminated C O N N E C T " CONNECT " CONNECT"@" > /dev/null 2>&1”,最后发现可能是断开连接的不干净,多执行几次adsl-stop,在执行adsl-start就会成功了
  • 在代理服务tinyproxy运行期间,报过这个错:Waiting servers (0) is less than MinSpareServers (5). Creating new child.,原因是达到最大连接数,无法创建新的连接处理请求,代理服务也就挂了,重启代理服务即可,解决办法
vim /etc/tinyproxy/tinyproxy.confMaxClients 100 -> 500  # 最大连接数
Timeout 600 -> 20  # 超时时间
2、搭建Python环境

(1) 安装Python Python依赖

sudo yum install yum-utils
sudo yum-builddep python

Python源码连接:https://www.python.org/ftp/python/

curl -O https://www.python.org/ftp/python/3.5.0/Python-3.5.0.tgz

我在用curl时无法下载,可以到官网下载指定版本的Python,然后传到服务器上

tar xf Python-3.5.0.tgz
cd Python-3.5.0
./configure
make
sudo make install

安装完成后通过python3 -V来查看当前版本

(2) 安装虚拟环境

cd ~
mkdir venv
cd venv
python3 -m venv python3-forcrawl
source ~/venv/python3-forcrawl/bin/activate

(3) 安装相应的python库

pip install requests
# 安装其他环境导出的库
pip install -r requirements.txt

阿里云服务器:

  • 功能:接受动态VPS发送的IP,并提供接口,返回动态VPS实时的IP&端口
  • 工具:web服务-tornado

  • 连接:ssh root@ip -p 22, 如果忘记服务器密码,可以重置实例登陆密码和远程连接密码:更多->密码、秘钥
  • 搭建Python环境同上,安装tornado
pip install tornado
sudo yum install -y redis
# 启动服务
redis-server >> /dev/null 2>&1 &
# 连接redis
redis-cli
  • mongo数据库(可以不进行安装,实现基本的代理功能不需要该库)
# yum中没有mongo的下载源,需要手动添加
vi /etc/yum.repos.d/mongodb-org-3.4.repo
# 写入以下信息,针对centos7
[mongodb-org-3.4]
name=MongoDB Repository
baseurl=https://repo.mongodb.org/yum/redhat/7/mongodb-org/3.4/x86_64/
gpgcheck=1
enabled=1
gpgkey=https://www.mongodb.org/static/pgp/server-3.4.asc
# 安装
sudo yum install -y mongodb-org
启动:
systemctl start mongod.service

注意点&坑:

  • ssh链接时,报错Permission denied (publickey,gssapi-keyex,gssapi-with-mic),解决办法:

    • 通过阿里云web终端登录到服务器,修改ssh配置文件
vim /etc/ssh/sshd_config更改:PasswordAuthentication no(默认yes)
或打开注释:PermitRootLogin yes

代码实现逻辑

1、客户端:动态vps

  • 通过Python执行断开连接&拨号的操作,成功后匹配获取公网IP,通过requests库将IP发送至服务端
  • 为了避免恶意干扰,可以加上一个传输秘钥,服务器验证传输秘钥,验证失败的不进行IP更新
  • 设置定时任务来实现IP的更换
  • 传送的数据中,包含IP、秘钥、name(区分vps服务器)

2、服务端:固定IP服务器

使用tornado启动服务,提供两个接口

  • post接口:接收客户端发送的IP,验证秘钥成功后,以name为key,ip&port为val,存入redis
  • get接口:从redis中取出ip&port并返回

代理检测程序:可用于检测IP的可用性,剔除失效IP

总结

  • 相对直接购买代理,价格更便宜,且速度不受限制,但是缺点是,在vps拨号,到传输到服务器,再到爬虫使用代理,这个过程存在延迟,可能在切换IP时,会导致代理不可用,解决方案是设置超时时间并休眠几秒后进行重试
  • 不适用于对IP切换速度要求很快的服务,拨号太频繁了,一个是IP有时不变,另一个容易拨号失败
  • 如果在线上环境中使用,可以多买几台动态vps,搞一个IP池
  • 代码实现见:https://download.csdn.net/download/huangbangqing12/58718986

利用adsl拨号服务器VPS构建代理IP池相关推荐

  1. 爬虫采集自己构建代理ip池有什么优势?

    为何一些爬虫采集的专业技术人员购买了代理ip还会继续自己构建一个ip池,自己构建ip池有什么优势? (1)可无限制的调用API获取代理ip; 购买收费的代理ip,绝大多数都会提供API链接接口,客户利 ...

  2. NodeJs从零构建代理ip池(一)介绍

    <原文地址> 本系列主要讲解如何从零实现一个简单的代理 IP 池,教你从 Node 爬虫入门到融会贯通. 跟着本系列教程,将会学到一个完整 NodeJs 项目的开发到部署的一整套流程. 零 ...

  3. 用python代码构建代理IP池并过滤代理IP

    很多小伙伴在获得了批量的代理IP后,对IP的清洗存在疑问,这篇就叫你快速过滤代理IP import requestsdef proxy_use():# 以百度为目标urlurl = "htt ...

  4. golang爬虫构建代理ip池

    代理ip获取是用的付费的,免费的可用性和效率都太低了 首先是获取代理ip //获取代理ip nowUseProxyIP :原来使用的ip func getProxyIP(nowUseProxyIP s ...

  5. 获得代理ippython_Python搭建代理IP池实现获取IP的方法

    使用爬虫时,大部分网站都有一定的反爬措施,有些网站会限制每个 IP 的访问速度或访问次数,超出了它的限制你的 IP 就会被封掉.对于访问速度的处理比较简单,只要间隔一段时间爬取一次就行了,避免频繁访问 ...

  6. Python搭建代理IP池(一)- 获取 IP

    使用爬虫时,大部分网站都有一定的反爬措施,有些网站会限制每个 IP 的访问速度或访问次数,超出了它的限制你的 IP 就会被封掉.对于访问速度的处理比较简单,只要间隔一段时间爬取一次就行了,避免频繁访问 ...

  7. 搭建代理IP池的方法

    突破次数的限制就可以使爬虫更高效的工作,代理IP是突破次数限制,提高爬虫高效工作的最好的工具.所以,很多人都想通过建立IP池的方法,实现换IP突破限制,那么这IP池如何进行搭建呢? 一,免费搭建代理I ...

  8. Python3网络爬虫(十一):爬虫黑科技之让你的爬虫程序更像人类用户的行为(代理IP池等)

    转载请注明作者和出处:http://blog.csdn.net/c406495762 运行平台: Windows Python版本: Python3.x IDE: Sublime text3 前言 黑 ...

  9. 通过Python利用ADSL服务器和tinyproxy构建数据自己的动态代理IP池,用django+redis做web服务,提供IP接口

    应公司业务需求需要在一些地方使用代理,要求连通率高,速度快,最主要的还要便宜,对比多家供应商后,最后还是决定自购拨号服务搭建代理IP池. 需要配置:1.一台或多台adsl服务器(用以提供IP,可网上购 ...

  10. 什么是代理IP池,如何构建?

    什么是代理ip池? 通俗地比喻一下,它就是一个池子,里面装了很多代理ip.它有如下的行为特征: 1.池子里的ip是有生命周期的,它们将被定期验证,其中失效的将被从池子里面剔除. 2.池子里的ip是有补 ...

最新文章

  1. ElasticSearch是什么?为什么快?倒排索引是什么?ElasticSearch的应用?
  2. 小米6关闭位置服务器,关闭这6个设置,让你的小米手机从回青春,再战3年
  3. 但凭鸿蒙是什么意思,你好,鸿蒙!正式版,6月见
  4. 汇编语言-015(PROC伪指令定义参数方式、EXTERNDEF、INCLUDE 、EXTERN 、INVOKE、PROC、PROTO 、MOVSB 、MOVSD 、CMPSD )
  5. java线程服务器_一台Java服务器跑多少个线程
  6. prototype小解
  7. linux 生成2g文件吗,linux 32位系统 c++写大于2G文件
  8. win10 安装db2 10.1 并使用DBserver连接db2数据库
  9. Atitit 知识结构化的艺术 目录 1. 知识信息结构化脑图 2 1.1. 散乱化模式 2 2. 直线排列 2 2.1.1. 直排 2 2.1.2. 链表模式 2 3. 树形排列 2 3.1.
  10. 酒水饮料类零售库存管理软件app,哪个简单好用?看看这10款
  11. win10浏览器闪退_win10系统打开ie11浏览器出现闪退的两种解决方法
  12. 验证性因子分析(二)
  13. 交互式图像分割论文合集
  14. C#中sealed的用法
  15. wav 转换到 flac
  16. 面对问题时如何解决呢---pytharm不能进行单步调试
  17. 三天一题-20- Integer to Roman(Integer转成古罗马数字)
  18. 计算机组成原理swbus,计算机组成原理实验 2.1 总线与寄存器 赖晓铮.ppt
  19. Android安卓原生接入微信app支付PHP服务端
  20. mysql用户的创建、修改、删除与密码修改

热门文章

  1. 【转载】C++编码规范与指导
  2. SparseLDA算法
  3. python中flag标志用法_标记变量flag的用法
  4. workgroup无法访问 您可能没有权限使用网络资源 (解决方案)
  5. lubuntu输入法设置_Ubuntu 设置中文输入法
  6. 虚幻4英雄联盟模型分享——荆棘之刺婕拉
  7. 上证50基金有哪些_哪一只上证50指数基金最值得关注?
  8. 立春好消息:华章图书持续霸榜京东、当当计算机畅销新书榜!
  9. mysql中输出100内质数_SQL 打印 100 以内的质数
  10. nginx学习-负载均衡-keepalived高可用-反向代理