我们在爬取页面的时候,如果长时间使用一个网址去爬取某个网站,就会受爬去限制,此时,我们引用了代理IP,IP随时在变化,也就不会被限制了

一下是国内提供免费代理IP的地址:http://www.xicidaili.com/

我们打开这个网页后可以看到如下图的代理IP与地址

上图标记部分就是一个代理IP与其端口号

那么下面我们就开始使用代理IP来爬取内容

首先,我们需要自定义opener,为什么要自定义opener呢?那是由于,基本的urlopen方法不支持代理,所以需要支持这个功能:

  • 使用相关的Handler处理器来创建特定的处理器对象
  • 然后通过urllib.request.build_opener方法使用这些处理器对象,创建自定义的opener对象
  • 将自定义的opener对象定义为全局opener(表示如果但凡后边用到urlopen,都将使用这个opener)

具体实现代码如下:

import urllib.request'''定义函数
'''
def proxy_use(url,tm_ip):proxy = urllib.request.ProxyHandler({"http":tm_ip})opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)#定义全局opener
    urllib.request.install_opener(opener)#获取网页内容content = urllib.request.urlopen(url).read().decode("UTF-8","ignore")return contentip = "14.118.254.1:6666"
url = "http://www.baidu.com"
content = proxy_use(url,ip)
print(len(content))

运行结果如下:

转载于:https://www.cnblogs.com/OliverQin/p/8904059.html

【Python3 爬虫】12_代理IP的使用相关推荐

  1. python3爬虫伪装代理IP

    在爬取类似 起点 色魔张大妈 这样的网站时,会被网站看出是爬虫机制,这时需要伪装成浏览器以及使用IP代理的方式来爬去正常内容. 实例 import re import requests import ...

  2. 【完美解决】爬虫伪装代理IP方案

    爬虫伪装代理IP 爬虫程序频繁访问某网站,很容易触发网站的保护机制,造成无法访问.本文将解决这一问题. 首先要伪装请求头,request默认是python-requests,emmm,这不是找事嘛,首 ...

  3. 爬虫篇——代理IP爬取备用及存储

    爬虫篇--代理IP爬取备用及存储 代码 代码 本文通过抓取免费的高匿IP代理,将其写入列表并保存为json格式文件,且将代码进行了封装,方便以后抓取数据时动态的更新handle的IP地址,从一方面避免 ...

  4. 在Scrapy中使用爬虫动态代理IP

    本文介绍如何在Scrapy中使用无忧代理(www.data5u.com)的爬虫动态代理IP,以及如何设置User-Agent. 动态转发参考https://blog.csdn.net/u0109787 ...

  5. 利用多线程爬虫搭建代理ip池的两种方法(含源码)

    搭建爬虫代理ip池的两种方法(含源码) 前言 一.ip池是什么? 二.爬取原理 三.使用步骤 方法一 爬取网站https://www.kuaidaili.com/ 验证 存取到mysql 方法二 爬取 ...

  6. 使用爬虫实现代理IP池之放弃篇

    2019独角兽企业重金招聘Python工程师标准>>> 啥叫代理IP以及代理IP池 概念上的东西网上搜索一下就好了,这里简单科普一下(大部分会读这篇文章的人,基本是不需要我来科普的) ...

  7. python爬虫设置代理ip池

    在使用python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度.高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网页,就很可能被封,那如何解决呢?使用代 ...

  8. Python爬虫添加代理IP池(新手)

    给爬虫添加代理IP池 我们在运行爬虫的过程中由于请求次数过多经常会遇到被封IP的情况,这时就需要用到代理IP来解决.代理IP的原理,简单来说就像在本机和web服务器之间开一个中转站,把本机的请求交给代 ...

  9. python爬虫设置代理ip池——方法(一)

    """ 在使用python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度.高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一个IP反复爬取同一个网 ...

  10. Python 爬虫使用代理 IP 的正确方法

    代理 IP 是爬虫中非常常用的方法,可以避免因为频繁请求而被封禁.下面是 Python 爬虫使用代理 IP 的正确方法: 1. 选择可靠的代理 IP 供应商,购买或者免费使用代理 IP 列表. 2. ...

最新文章

  1. T-SQL:流程控制 4,Case 语句
  2. python3-pwntools教程_记一次five熬夜重装pwntools
  3. 和为S的两个数字(python)
  4. WPS Office政府机关单位专用版[安卓+Windows]
  5. python网课答案查询_网课答案查询助手v1.0 官方版
  6. HBuilderX ios打包失败(已解决)
  7. 玩转数据可视化之R语言ggplot2:(九)网络图绘制
  8. 关于深拷贝与浅拷贝的问题?
  9. 在Windows 记事本中快速选中大量文本的方法
  10. vue echarts 中国地图实现用户分布
  11. android进阶4step3:Android常用框架——友盟推送简单使用(官翻)
  12. 【English】外企常用的英语面试问题总结
  13. python百题大通关解题记录-排序算法
  14. 100行代码 5分钟开发一个数字货币行情软件(升级版)
  15. Python后端工程师学习路线——大学版
  16. oracle周中的日无效,【填坑】ORA-01846 周中的日无效
  17. android人脸识显示头像自定义,Android 仿QQ头像自定义截取功能
  18. SSD和HDD的区别
  19. 计算机基础课ppt封面制作,计算机应用基础制作ppt课件
  20. 手机号码随机php,PHP随机生成名字 电话号码

热门文章

  1. C++ 从入门到入土(English Version)Section 6: Pointers and Call by Reference
  2. windows 10安装python2.7、python3.6并配置环境变量
  3. 如何用阿里云服务器建立一个wordpress网站
  4. 解读2016之Golang篇:极速提升,逐步超越
  5. AutoHotkey 命令列表
  6. Docker 从零开始制作基础镜像[centos]
  7. hdu 2528:Area(计算几何,求线段与直线交点 + 求多边形面积)
  8. [CTO札记]雅虎主页改版使用户停留时间增加20% -
  9. 关于EIGRP路由汇总问题
  10. Shell date连接mysql执行指令