代理IP

代理ip就是可以模拟一个ip地址去访问某个网站爬取某个网站的大量信息时,可能由于我们爬的次数太多导致我们的ip被对方的服务器暂时屏蔽,比如微信文章爬虫超过5000次就直接被拦截了。

利用urllib的request就可以完成代理IP的使用

urlopen只是opener的通用版本,代理IP对于urlopen实现不了,opener需要自定义。

request里面正好有处理各种功能的处理器方法,如下:

ProxyHandler, UnknownHandler, HTTPHandler,
HTTPDefaultErrorHandler, HTTPRedirectHandler,
FTPHandler, FileHandler, HTTPErrorProcessor, DataHandler

ProxyHandler来处理代理问题

实现代码如下:

import urllib.request
import urllib.error
import urllib.parse# headers参考然后赋值就可以
headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng, */*;q=0.8','Accept-Language': 'zh-CN,zh;q=0.9','User-Agent': 'Mozilla/5.0 (Windows NT 6.3;Win64;x64) AppleWebKit/537.36 (KHTM

Python学习[4]:urllib库-爬虫的第三步之代理IP相关推荐

  1. python中的urllib库_Python2/3中的urllib库

    介绍urllib库在不同版本的Python中的变动,并以Python3.X讲解urllib库的相关用法. urllib库对照速查表 Python2.X Python3.X urllib urllib. ...

  2. python爬虫隐藏ip_Python3网络爬虫之使用User Agent和代理IP隐藏身份

    本文介绍了Python3网络爬虫之使用User Agent和代理IP隐藏身份,分享给大家,具体如下: 运行平台:Windows Python版本:Python3.x IDE:Sublime text3 ...

  3. Python学习[3]:urllib库-爬虫的第二步

    这一节主要学习了以下方面: POST请求的处理 代理IP使用 超时处理加工 parse解析工作 POST请求的处理 POST是HTTP协议的请求方法之一,作为一枚资深的JAVA开发,对于postMan ...

  4. python爬虫网络请求超时_6、web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求...

    利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码 read()读出html源码内容 decode("utf-8")将字节转化成字符 ...

  5. python中的urllib库_python3里的Urllib库

    首先Urllib是python内置的HTTP请求库. 包括以下模块: urllib.request 请求模块: urllib.error 异常处理模块: urllib.parse url解析模块: u ...

  6. python中的urllib库_七、urllib库(一)

    python2中,有urllib和urllib2两个库,在python3中统一为urllib库 它是python内置的HTTP请求库,包含了4个模块: request:最基本的HTTP请求模块,用来模 ...

  7. python urlretrieve_使用urllib库的urlretrieve()方法下载网络文件到本地的方法

    概述 见源码 源码 # !/usr/bin/env python # -*- coding:utf-8 -*- """ 图片(文件)下载,核心方法是 urllib.url ...

  8. 八 web爬虫讲解2—urllib库爬虫—ip代理—用户代理和ip代理结合应用

    使用IP代理 ProxyHandler()格式化IP,第一个参数,请求目标可能是http或者https,对应设置 build_opener()初始化IP install_opener()将代理IP设置 ...

  9. 九 web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解...

    封装模块 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import j ...

  10. Python爬虫方式抓取免费http代理IP

    我们新手在练手的时候,常常需要一些代理IP进行爬虫抓取,但是因为学习阶段,对IP质量要求不高,主要是弄懂原理,所以花钱购买爬虫代理IP就显得没必要(大款忽略),今天跟大家分享一下,如果使用爬虫抓取免费 ...

最新文章

  1. 如何下载DELL服务器VMware ESXi镜像
  2. Java OR Android
  3. ajax 微信code获取_获取链接的参数,判断是否是微信打开,ajax获取数据
  4. ros(4)话题的自定义消息
  5. MyBatis的逆向工程工具,自动生成数据库对应的POJO实体类、mapper接口、增删改查mapper.xml文件
  6. bzoj1013 [JSOI2008]球形空间产生器sphere
  7. Android 功耗(10)---如何测试 Mediatek 平台各个场景的功耗数据?
  8. android开发switch自动关闭,更改Android Switch状态
  9. 另一个SqlParameterCollection 中已包含 SqlParameter[解决方案]
  10. MVC公司架构介绍-工具类(一)
  11. centos7上mycat安装_Mysql+Mycat实现数据库主从同步与读写分离
  12. php微博自动评论,新浪微博自动评论工具
  13. 计算机cmd如何设置路由,小编教你怎么进入路由器设置界面
  14. EDIFACT 标准
  15. Study「Photoshop」:勾线图
  16. 集成树模型系列之一——随机森林
  17. 富士康将和台积电联手 竞购东芝半导体业务
  18. css技术点二:字体图标(阿里巴巴字体图标使用)
  19. python 实现京东滑块验证码登录
  20. linux的用户和组的管理

热门文章

  1. 计算机学院java男默女泪,最新网络用语学习笔记,看了后,男默女泪
  2. 删除xp计算机用户账户,XP系统怎么删除多余的用户帐号?XP系统删除多余用户帐号的方法...
  3. 【笔记】74HC573的一些记录
  4. CPU飙高系统反应慢怎么排查?
  5. 设计一个小型的物联网应用系统_点赞 | 面向能源物联网的智能传感芯片设计与应用...
  6. 常用手持设备的use-agent头信息
  7. XILINX-FPGA下载工具--CH347FPGADownloader
  8. 易灵思FPGA-下载器选择指南
  9. 视频动作识别调研(Action Recognition)
  10. 分析评估和定位声音质量