1. 什么是代理服务器?

摘自百度百科:https://baike.baidu.com/item/http%E4%BB%A3%E7%90%86/7689519?fr=aladdin

代理服务器英文全称是Proxy Server,其功能就是代理网络用户去取得网络信息。形象的说:它是网络信息的中转站。

在一般情况下,我们使用网络浏览器直接去连接其他Internet站点取得网络信息时,须送出Request信号来得到回答,然后对方再把信息以bit方式传送回来。

代理服务器是介于浏览器和Web服务器之间的一台服务器,有了它之后,浏览器不是直接到Web服务器去取回网页而是向代理服务器发出请求,

Request信号会先送到代理服务器,由代理服务器来取回浏览器所需要的信息并传送给你的浏览器。

而且,大部分代理服务器都具有缓冲的功能,就好象一个大的Cache,它有很大的存储空间,它不断将新取得数据储存到它本机的存储器上,

如果浏览器所请求的数据在它本机的存储器上已经存在而且是最新的,那么它就不重新从Web服务器取数据,而直接将存储器上的数据传送给用户的浏览器,这样就能显著提高浏览速度和效率。
更重要的是:Proxy Server(代理服务器)是Internet链路级网关所提供的一种重要的安全功能

它的工作主要在开放系统互联( OSI )模型的会话层。

主要的功能有: 
1.突破自身IP访问限制,访问国外站点(翻墙)。如:教育网、169网等网络用户可以通过代理访问国外网站。
2.访问一些单位或团体内部资源。如某大学FTP(前提是该代理地址在该资源的允许访问范围之内),使用教育网内地址段免费代理服务器,就可以用于对教育网开放的各类FTP下载上传,以及各类资料查询共享等服务。
3.突破中国电信的IP封锁。中国电信用户有很多网站是被限制访问的,这种限制是人为的,不同Serve对地址的封锁是不同的。所以不能访问时可以换一个国外的代理服务器试试。
4.提高访问速度。通常代理服务器都设置一个较大的硬盘缓冲区,当有外界的信息通过时,同时也将其保存到缓冲区中,当其他用户再访问相同的信息时, 则直接由缓冲区中取出信息,传给用户,以提高访问速度。
5.隐藏真实IP。上网者也可以通过这种方法隐藏自己的IP,免受攻击。

2. 代理的类型?

参考:http://www.360doc.com/content/13/1217/10/14919052_337800783.shtml

2.1. 按照协议分类

常用的代理类型有:ftp、http、https、socks、RTSP、POP3等代理类型。其中: 
HTTP代理和HTTPS代理: 能够代理客户机的HTTP访问,主要是代理浏览器访问网页,它的端口一般为80、8080、3128等http访问http网站,https代理访问https网站:

FTP代理: 能够代理客户机上的FTP软件访问FTP服务器,它的端口一般为21、2121。
RTSP代理: 代理客户机上的Realplayer访问Real流媒体服务器的代理,其端口一般为554。
POP3代理: 代理客户机上的邮件软件用POP3方式收发邮件,端口一般为110。使用方法参考文章:http://blog.csdn.net/zwq912318834/article/details/78014762

SOCKS代理: SOCKS代理与其他类型的代理不同,它只是简单地传递数据包,而并不关心是何种应用协议,既可以是HTTP请求,也可以是HTTPS请求等,所以SOCKS代理服务器比其他类型的代理服务器速度要快得多。SOCKS代理又分为SOCKS4和SOCKS5,二者不同的是SOCKS4代理只支持TCP协议(即传输控制协议),而SOCKS5代理则既支持TCP协议又支持UDP协议(即用户数据包协议),还支持各种身份验证机制、服务器端域名解析等。SOCK4能做到的SOCKS5都可得到,但SOCKS5能够做到的SOCK4则不一定能做到,比如我们常用的聊天工具QQ在使用代理时就要求用SOCKS5代理,因为它需要使用UDP协议来传输数据。
注意:代理必须( IP + Port + http/https(socks4/5) )协议,三个字段一起配合使用,不能只用( IP + Port )两个字段
1
2.2. 按照匿名度分类
从另一个角度来说,代理又可以分为三种,即高度匿名代理普通匿名代理透明代理。 
高度匿名代理不改变客户机的请求,这样在服务器看来就像有个真正的客户浏览器在访问它,这时客户的真实IP是隐藏的,服务器端不会认为我们使用了代理。
普通匿名代理能隐藏客户机的真实IP,但会改编我们的请求信息,服务器端有可能会认为我们使用了代理(仅仅是可能而已,一般说来是没问题的),但其实这种代理的安全性可能比高度匿名代理更高,有的代理甚至会剥离客户机发送信息中的一部分,这样服务器端就根本探测不到我们所用的操作系统版本和浏览器版本
第三种就是透明代理,它不但改编我们的请求信息,还会传送真实的IP地址。

2.3. 爬虫应该选择什么样的代理?

针对不需要用户登录,cookie验证的网站,一般选择动态高匿代理
对于需要用户登录,身份认证的。一般选择静态IP

什么是代理服务器,代理ip池芝麻相关推荐

  1. 构建一个给爬虫使用的代理IP池

    做网络爬虫时,一般对代理IP的需求量比较大.因为在爬取网站信息的过程中,很多网站做了反爬虫策略,可能会对每个IP做频次控制.这样我们在爬取网站时就需要很多代理IP. 代理IP的获取,可以从以下几个途径 ...

  2. Python爬虫-代理ip池建立

    代理IP池建立 前言 之前提到过urllib和requests的利用代理ip的访问方式 . https://blog.csdn.net/zhouchen1998/article/details/813 ...

  3. 通过Python利用ADSL服务器和tinyproxy构建数据自己的动态代理IP池,用django+redis做web服务,提供IP接口

    应公司业务需求需要在一些地方使用代理,要求连通率高,速度快,最主要的还要便宜,对比多家供应商后,最后还是决定自购拨号服务搭建代理IP池. 需要配置:1.一台或多台adsl服务器(用以提供IP,可网上购 ...

  4. 搭建一个自己的百万级爬虫代理ip池.

    做爬虫抓取时,我们经常会碰到网站针对IP地址封锁的反爬虫策略.但只要有大量可用的代理IP资源,问题自然迎刃而解. 以前尝试过自己抓取网络上免费代理IP来搭建代理池,可免费IP质量参差不齐,不仅资源少. ...

  5. 做了一个动态代理 IP 池项目,邀请大家免费测试~

    长期在掘金潜水, 现在打算出来创业了,目前公司在深圳. 做了点啥呢, 就是给爬虫用的动态代理 IP 池啦. 目前运行很稳定, 邀请大家来免费测试使用, 获取免费激活码:微信公众号"2808p ...

  6. 爬虫单个ip代理设置_爬虫怎么设置代理ip池?

    网络技术现在是如此发达,用户换ip再也不用自己手动来,很多ip代理都是傻瓜式操作,智能完成切换,完全不用使用者操心. 像在我们在利用网络爬虫开展数据采集,遇到爬取频率过高.频次过多的问题,会碰到ip被 ...

  7. Scylla——开源免费的优秀代理 IP 池:自动验证、JSON API、基于 React 的 Web UI、Docker 支持...

    GitHub:github.com/imWildCat/s- 中文文档:scylla.wildcat.io/zh/latest/ 自己是一个爬虫爱好者,有时候爬虫写的太过强大了被目标网站封了(笑).所 ...

  8. 获得代理ippython_Python搭建代理IP池实现获取IP的方法

    使用爬虫时,大部分网站都有一定的反爬措施,有些网站会限制每个 IP 的访问速度或访问次数,超出了它的限制你的 IP 就会被封掉.对于访问速度的处理比较简单,只要间隔一段时间爬取一次就行了,避免频繁访问 ...

  9. NodeJs从零构建代理ip池(一)介绍

    <原文地址> 本系列主要讲解如何从零实现一个简单的代理 IP 池,教你从 Node 爬虫入门到融会贯通. 跟着本系列教程,将会学到一个完整 NodeJs 项目的开发到部署的一整套流程. 零 ...

  10. python 代理ip池_GitHub - xuan525/proxy_pool: Python爬虫代理IP池(proxy pool)

    ProxyPool 爬虫代理IP池 ______ ______ _ | ___ \_ | ___ \ | | | |_/ / \__ __ __ _ __ _ | |_/ /___ ___ | | | ...

最新文章

  1. asp.net C# MVC 提交表单后清空表单
  2. 深度学习在美团的应用
  3. #ifndef、#def、#endif等宏是什么意思
  4. Java基础入门笔记-链表与容器
  5. java反射class文件_Java反射(一)Class
  6. [linux/ unix] 查看占用端口的 进程ID 的区别
  7. 微服务设计 10 大反模式和陷阱!
  8. js的注释方式和快捷键
  9. BP神经网络的原理及简单应用
  10. 华为外包公司一面二面三面回顾
  11. 计算机图解教程视频教程,超详细图文+视频电脑组装教程,装机之家手把手教你组装一台电脑(9)...
  12. linux安装vsftpd服务,Linux系统安装Vsftpd
  13. 安装igraph踩过的坑
  14. PCIE--1--概念认知
  15. android平台下基于ANativeWindow实现渲染bitmap图像
  16. bzoj2096[Poi2010]Pilots*
  17. 【数学建模】Matlab实现判别分析(线性判别和二次判别分析)
  18. Vue中使用quill富文本
  19. JGit----将 Git 嵌入你的应用
  20. Apache Superset可视化数据大屏

热门文章

  1. -XX:PretenureSizeThreshold的默认值和作用浅析
  2. 微信记账本小程序(代码+功能介绍)
  3. 求一个向量变换为另一个向量的矩阵_机器学习数学-矩阵
  4. Nature communications
  5. 前端面试谈:项目经历的 STAR 法则
  6. Egret引擎游戏内存优化指南
  7. 【Uly】微软产品开发中的“战争与和平”
  8. webpack之HTML、css和js代码压缩
  9. 云服务器宽带1M代表的什么意思?下载速度是1M/S吗?
  10. 从发声机理到听觉感知认识声音的本质