代理IP定义:代替你原来的IP地址去对接网络的IP地址
作用:隐藏自身真是IP,避免被目标网站封掉。代理IP分类:
高匿代理:web端只能看到代理IP
普通代理:web端知道有人通过此代理IP访问,但不知道用户真是IP
透明代理:web端能看到用户真实IP,也能看到代理IP应用场景:
针对高频率访问的IP地址进行了反爬机制,封掉IP地址的网站代理IP地址:自行百度代理IP


语法格式

        proxies = {'http': 'http://IP:端口号','https': 'http://IP:端口号'}res = requests.get(url=self.test_url, proxies=proxies, headers=self.headers, timeout=2)

示例

#!/usr/bin/python3
# -*- coding: utf-8 -*-
"""
@FileName: ProxyIpPool.py
@Time    : 2022/3/14 8:53
@Author  : 热气球
@Software: PyCharm
@Version : 1.0
@Contact : 17695691664@163.com
@Des     : 抓取飞度代理的免费高匿代理并测试可用性
"""import requests
import re
from fake_useragent import UserAgentclass ProxyPool:def __init__(self):self.proxy_url = 'http://www.feidudaili.com/index/gratis/index?page={}'self.test_url = 'https://www.baidu.com/'self.headers = {'User-Agent': UserAgent().random}self.ip_list = []def get_proxy_pool(self, url):try:html = requests.get(url=url, headers=self.headers, timeout=3).textself.parse_html(html=html)except Exception as e:print('页面响应超时,重试中。。。。。。')def parse_html(self, html):regex = '<tr>.*?<td>(.*?)</td>.*?<td>(.*?)</td>.*?<td>.*?</td>.*?</td>.*?</tr>'pattern = re.compile(regex, re.S)r_list = pattern.findall(html)try:for li in r_list:host = li[0]port = li[1]ipaddress = host + ':' + portself.test_proxy(proxy=ipaddress)except IndexError as e:print(e)def test_proxy(self, proxy):""" 测试一个代理IP地址是否可用 """proxies = {'http': 'http://{}'.format(proxy),'https': 'http://{}'.format(proxy)}try:res = requests.get(url=self.test_url, proxies=proxies, headers=self.headers, timeout=2)if res.status_code == 200:print(proxy, '\033[32m可用\033[0m')html = requests.get(url='http://httpbin.org/get', headers=self.headers, proxies=proxies, timeout=3).textprint('html:', html)self.ip_list.append(proxy)except Exception as e:print(proxy, '\033[31m不可用\033[0m')def run(self):for pg in range(1, 4504):url = self.proxy_url.format(pg)self.get_proxy_pool(url=url)if __name__ == '__main__':spider = ProxyPool()spider.run()print('可用的代理列表为:', spider.ip_list)

效果展示

python爬虫2.0.5ProxyIpPool---proxies使用代理IP相关推荐

  1. Python爬虫方式抓取免费http代理IP

    我们新手在练手的时候,常常需要一些代理IP进行爬虫抓取,但是因为学习阶段,对IP质量要求不高,主要是弄懂原理,所以花钱购买爬虫代理IP就显得没必要(大款忽略),今天跟大家分享一下,如果使用爬虫抓取免费 ...

  2. 【python爬虫】在scrapy中利用代理IP(爬取BOSS直聘网)

    同学们好,我又滚回来更新了,这一次我们要爬取的目标是BOSS直聘,BOSS直聘可以说是反爬虫一个很好的例子了,主要在于如果你访问他的次数过多,他就会出现验证码,要求你通过验证才能继续看,这样还算可以, ...

  3. (python爬虫时)如何知道是否代理ip伪装成功

    通过请求  http://httpbin.org/get   获得类似以下信息: {"args": {}, "headers": {"Accept&q ...

  4. 关于python爬虫(requests)设置http代理的源码demo

    科技不断发展,网络给我们带来了便利,但有时候也会遇到问题,当我们在网络中畅游时,很可能遇到IP受限导致的访问不了这种事情,这个时候我们就需要使用到http代理IP. 那么如何判断自己遇到的是访问受限呢 ...

  5. python爬虫隐藏ip_Python3网络爬虫之使用User Agent和代理IP隐藏身份

    本文介绍了Python3网络爬虫之使用User Agent和代理IP隐藏身份,分享给大家,具体如下: 运行平台:Windows Python版本:Python3.x IDE:Sublime text3 ...

  6. Python爬虫:爬取西刺代理数据,讲解处理反爬措施(上篇)

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文章来自腾讯云 作者:Python进阶者 想要学习Python?有问题得不到第一 ...

  7. python爬虫热点代理_Python爬虫实战——反爬策略之代理IP【无忧代理】

    一般情况下,我并不建议使用自己的IP来爬取网站,而是会使用代理IP. 原因很简单:爬虫一般都有很高的访问频率,当服务器监测到某个IP以过高的访问频率在进行访问,它便会认为这个IP是一只"爬虫 ...

  8. 爬虫笔记7:requests设置代理IP

    一.为什么要设置代理IP 爬虫爬取网站时,如果被对方识别是爬虫,就很可能被封号(即不能访问该网站). 二.怎么获取IP 1.通过网站:https://www.ipip.net/(获取外网IP) 2.通 ...

  9. 老鱼Python数据分析——篇二:系统设计(找代理IP)

    开发环境:win7 x64版本,python 3.6,Anaconda3 (64-bit) 因为频繁访问容易被封IP,所以我们需要使用代理来进行数据的爬取(当然你也可以放慢节奏,比如每5秒爬一条记录) ...

最新文章

  1. 【错误记录】Flutter 混合开发报错 ( java.nio.file.FileSystemException: xxx/R.jar: 另一个程序正在使用此文件,进程无法访问。 )
  2. 每天一道LeetCode-----计算给定序列中所有长度为k的滑动窗的最大值集合
  3. php拖拽原理,JS拖拽效果及原理解析
  4. python语法笔记(四)
  5. python里else中文意思_Python循环语句中else的用法总结
  6. JAVA实现可视化的xpath_【Java】爬虫基础 -- XPath 小案例
  7. collection集合 网_房地产信托业务(集合)2020年1-9月分析报告
  8. 手动实现 NSTabViewController 的 Rect Transition 及 Propagate Title-b
  9. ❤️MVC三层架构及相关文档(建议收藏)❤️
  10. 获取公网ip,获取用户城市地址
  11. 写插件代码查看单据简单示例分享
  12. 计算机中程序员计算是怎么计算,程序员计算器
  13. 用C语言实现“电子词典”项目
  14. AspCms程序PC端生成静态,手机端动态运行
  15. LeetCode#860: 柠檬水找零
  16. 运维需要懂产品和运营吗?
  17. 微信小程序有哪些?401~500
  18. rainbow和论坛的集成
  19. 魔兽争霸3的MapHack制作教程(一)显示敌对单位
  20. 拉勾网数据处理与分析

热门文章

  1. Auto Layout iOS
  2. 基于springboot mybatis网上商城系统源码和论文
  3. 攻防世界stegobase64详解
  4. 一款基于 Python+flask 的态势感知系统(附完整源码)
  5. 密码算法是安全的吗?
  6. windows10+py36+MeCab安装总结
  7. 计算机网络网站qige,海尔第三代七哥 Air Magic体感应用体验
  8. vue实现一个星级打分效果_Vue实现星级评价效果
  9. Emgucv实现Unsharp Mask USM锐化算法
  10. 主动轮廓模型 matlab,主动轮廓模型的功能.ppt