大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只在csdn这一个平台进行更新,博客主页:https://buwenbuhuo.blog.csdn.net/。

PS:由于现在越来越多的人未经本人同意直接爬取博主本人文章,博主在此特别声明:未经本人允许,禁止转载!!!

特此声明:博主在本片博文的第一部分引用借鉴的程序猿果果《爬虫为什么要使用代理IP》这篇文章,感兴趣的同学可以看下。

目录

  • 推荐
  • 一、为什么使用代理IP
    • 1、基本原理
    • 2、代理的作用
  • 二、如何使用代理IP
  • 三、自动提取代理


推荐


  ♥各位如果想要交流的话,可以加下QQ交流群:974178910,里面有各种你想要的学习资料。♥

  ♥欢迎大家关注公众号【不温卜火】,关注公众号即可以提前阅读又可以获取各种干货哦,同时公众号每满1024及1024倍数则会抽奖赠送机械键盘一份+IT书籍1份哟~♥

一、为什么使用代理IP

我们在做爬虫的过程中经常会遇到以下情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,这种情况可以称为封IP。

既然服务器检测的是某个IP单位时间的请求次数,那么借助某种方式来伪装我们的IP,让服务器识别不出是由我们本机发起的请求,不就可以成功防止封IP了吗?

这个时候就用到代理IP了,说到代理IP下面就需要先基本原理、代理的作用。

1、基本原理

代理实际上指的就是代理服务器,英文叫作proxy server,它的功能是代理网络用户去取得网络信息。形象地说,它是网络信息的中转站。在我们正常请求一个网站时,是发送了请求给Web服务器,Web服务器把响应传回给我们。如果设置了代理服务器,实际上就是在本机和服务器之间搭建了一个桥,此时本机不是直接向Web服务器发起请求,而是向代理服务器发出请求,请求会发送给代理服务器,然后由代理服务器再发送给Web服务器,接着由代理服务器再把Web服务器返回的响应转发给本机。这样我们同样可以正常访问网页,但这个过程中Web服务器识别出的真实IP就不再是我们本机的IP了,就成功实现了IP伪装,这就是代理的基本原理。

2、代理的作用

  • 突破自身IP访问限制,访问一些平时不能访问的站点。
  • 访问一些单位或团体内部资源:比如使用教育网内地址段免费代理服务器,就可以用于对教育网开放的各类FTP下载上传,以及各类资料查询共享等服务。
  • 提高访问速度:通常代理服务器都设置一个较大的硬盘缓冲区,当有外界的信息通过时,同时也将其保存到缓冲区中,当其他用户再访问相同的信息时,则直接由缓冲区中取出信息,传给用户,以提高访问速度。
  • 隐藏真实IP:上网者也可以通过这种方法隐藏自己的IP,免受攻击。对于爬虫来说,我们用代理就是为了隐藏自身IP,防止自身的IP被封锁。

二、如何使用代理IP


如何使用代理IP主要看你用什么语言写的爬虫,使用什么框架,使用代理是一种基本的业务需求,基本上所有爬虫都会内置支持。

一提到使用代理IP ,就不得不说是使用免费IP还是花钱使用高匿代理。这个东西主要还是看个人了,如果对ip要求不高,你可以选择使用网上免费的开放代理,自己建一个程序维护一个ip池,爬取一些代理网站的免费ip,加一道测试程序,如果测试可以用,就把它收集起来供爬虫使用。不过免费代理可用率实在是太低,而且不是很稳定,经常会失效,条件允许的话强烈建议花点钱选择收费的私密代理。

PS:经常使用的西刺代理已经挂掉了,打开网页之后,我们会发现已经无法访问了

便宜没好货,更别说免费的,免费的代理现在好用的博主暂时也不知道。不过可以找那种免费试用的。博主测试用的是芝麻代理,如果只是测试的话可以领取每日免费IP

下图为获取到的代理IP

好了,代理ip已经获取完毕了,下面我们是不是需要找一个测试网站,下面博主给出一个专门测试的网站:https://httpbin.org/

打开网页之后,我们可以看到ip为本机ip,下面我们通过添加代理ip进行访问并查看结果。

下面通过代码进行实现:

# encoding: utf-8
'''@author 李华鑫@create 2020-10-06 15:57Mycsdn:https://buwenbuhuo.blog.csdn.net/@contact: 459804692@qq.com@software: Pycharm@file: 代理ip.py@Version:1.0'''
import requestsproxies = {"https":"https://58.218.200.247:9934"
}response = requests.request(method="get",url="https://httpbin.org/get",proxies=proxies)
print(response.text)


爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用相关推荐

  1. 爬虫入门经典(十) | 一文带你快速爬取网易云音乐

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  2. 爬虫入门经典(十一) | 一文带你爬取传统古诗词(超级简单!)

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  3. 爬虫入门经典(八) | 一文带你快速爬取股吧

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  4. 一文带你搞懂从动态代理实现到Spring AOP

    摘要:本文主要讲了Spring Aop动态代理实现的两种方式. 1. Spring AOP Spring是一个轻型容器,Spring整个系列的最最核心的概念当属IoC.AOP.可见AOP是Spring ...

  5. python爬虫代码1000行-简单用14行代码写一个Python代理IP的爬虫

    相信用别的语言只用14行是写不出来这样的效果的!而我们的Python 只需要区区的14行代码就能写出来哦! 这就是Python为什么是全球现在比较流行的语言之一了!因为简单 容易学! 比较上手! 现在 ...

  6. 爬虫入门经典(十二) | 一文带你快速爬取豆瓣电影

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  7. python 计算机程序设计-某高校计算机编程教授教你如何快速入门python,一文带你进入编程...

    image 如何快速入门Python 学习任何一门语言都是从入门(1年左右),通过不间断练习达到熟练水准(3到5年),少数人最终能精通语言,成为执牛耳者,他们是金字塔的最顶层.虽然万事开头难,但好的开 ...

  8. 爬虫入门经典(十七) | 图形验证码识别

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  9. 爬虫入门经典(二十一) | 破解CSS加密之爬取大众点评

      大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

最新文章

  1. 基于Python的信用评分卡模型分析
  2. 字母异位词分组—leetcode49
  3. 22行代码AC,三种解法——例题3-6_环状序列(UVa-1584)
  4. 【hibernate merge】session1.merge(T entity)方法的含义和update方法的区别
  5. 静态代码块与静态函数的执行顺序
  6. 2个线程共同处理冒泡排序 Linux 双线程处理
  7. 实战Node—幼教平台项目重构和优化
  8. C11中auto的使用
  9. MAC下maven本地仓库配置
  10. spring cloud - 概述
  11. unity开宝箱动画_Unity动画库插件iTween介绍
  12. 静态路由和直连路由引入配置
  13. Java之约瑟夫环问题
  14. “蔚来杯“2022牛客暑期多校训练营1 J Serval and Essay(图的启发式合并)
  15. Revit二次开发——revit怎么给桥梁加钢筋
  16. mysql 交集,并集,差集
  17. css系列-ol,ul
  18. SQL 成绩统计排序
  19. 百度云8秒视频,怎么破?
  20. python小海龟编辑器_海龟编辑器最新免费版下载

热门文章

  1. 为什么很多游戏人物会穿模
  2. TDA2030A发热量大的问题及其调试心得
  3. VC-终止线程,ExitThread函数,Te r m i n a t e T h r e a d函数,撤消线程,详解
  4. 关于Excel中的相对引用,绝对引用,和混合引用!
  5. vue页面绘图_Vue+Canvas绘图使用
  6. 考研英语 | 100个句子刷完考研大纲5500词
  7. 考计算机一级要2B铅笔嘛,考试中的答题卡为什么用2B铅笔填涂,看完你就明白了...
  8. 2021必火的商业模式
  9. iOS开发屏幕自动旋转与调整大小
  10. 京东商城的“地下世界”