• Python爬虫基础——HTML、CSS、JavaScript、JQuery网页前端技术
  • Python爬虫基础——正则表达式
  • Python爬虫基础——re模块的提取、匹配和替换
  • Python爬虫基础——XPath语法的学习与lxml模块的使用【CSDN】
  • Python爬虫进阶——JsonPath使用案例
  • Python爬虫进阶——urllib模块使用案例【淘宝】
  • Python爬虫进阶——Request对象之Get请求与URL编码【英雄联盟吧】
  • Python爬虫进阶——Request对象之post请求案例分析【百度翻译】
  • Python爬虫实战—— Request对象之header伪装策略
  • Python爬虫实战——反爬策略之代理IP【无忧代理】
  • Python爬虫实战——反爬策略之模拟登录【CSDN】
  • Python爬虫实战——反爬机制的解决策略【阿里】
  • Python爬虫总结——常见的报错、问题及解决方案

一般情况下,我并不建议使用自己的IP来爬取网站,而是会使用代理IP。
原因很简单:爬虫一般都有很高的访问频率,当服务器监测到某个IP以过高的访问频率在进行访问,它便会认为这个IP是一只“爬虫”,进而封锁了我们的IP。

那我们爬虫对IP代理的要求是什么呢?

  • 1、代理IP数量较多,可以减低被封锁的概率;
  • 2、IP生命周期较短,因为没钱o(´^`)o。

接下来,就讲一下从购买代理IP到urllib配置代理IP的全过程。

购买代理IP:

代理IP的中间商有很多,我们以无忧代理为例。

  1. 这里共有4套餐,我们选择第一个“¥10”套餐,进入详情界面:
  2. 竟然更便宜了,只要8.5???买!
    (我真的没拿无忧代理的广告费…)
  3. 购买成功之后,我们点击“创建API接口”:
  4. 获取HTTP爬虫代理IP的API链接:

配置代理IP:

  1. 我们先调用下接口试一下:
import urllib.request as urproxy_address = ur.urlopen('http://api.ip.data5u.com/dynamic/get.html?order=d314e5e5e19b0dfd19762f98308114ba&sep=4').read()
print(proxy_address)
  1. 由于返回结果为字节,我们还需对其进行utf-8格式转换,以及去空格:
proxy_address = proxy_address.decode('utf-8').strip()

输出如下:

  1. 创建proxy_handler:
proxy_handler = ur.ProxyHandler({'http': proxy_address}
)
  1. 新建opener对象:
proxy_opener = ur.build_opener(proxy_handler)
  1. 使用代理IP进行访问并输出:
request = ur.Request(url='https://edu.csdn.net/')
# open == urlreponse,只是进行了代理IP封装
reponse = proxy_opener.open(request).read().decode('utf-8')
print(reponse)

输出如下:

全文完整代码:

import urllib.request as urproxy_address = ur.urlopen('http://api.ip.data5u.com/dynamic/get.html?order=d314e5e5e19b0dfd19762f98308114ba&sep=4').read().decode('utf-8').strip()
# print(proxy_address)# 创建proxy_handler
proxy_handler = ur.ProxyHandler({'http': proxy_address}
)
# 新建opener对象
proxy_opener = ur.build_opener(proxy_handler)request = ur.Request(url='https://edu.csdn.net/')
# open == urlreponse,只是进行了代理IP封装
reponse = proxy_opener.open(request).read().decode('utf-8')
print(reponse)

为我心爱的女孩~~

Python爬虫实战——反爬策略之代理IP【无忧代理】相关推荐

  1. python爬虫热点代理_Python爬虫实战——反爬策略之代理IP【无忧代理】

    一般情况下,我并不建议使用自己的IP来爬取网站,而是会使用代理IP. 原因很简单:爬虫一般都有很高的访问频率,当服务器监测到某个IP以过高的访问频率在进行访问,它便会认为这个IP是一只"爬虫 ...

  2. Python爬虫实战——反爬机制的解决策略【阿里】

    这一次呢,让我们来试一下"CSDN热门文章的抓取". 话不多说,让我们直接进入CSND官网. (其实是因为我被阿里的反爬磨到没脾气,不想说话--) 一.URL分析 输入" ...

  3. Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(下)

    在Python爬虫实战(1) | 爬取豆瓣网排名前250的电影(上)中,我们最后爬出来的结果不是很完美,这对于"精益求精.追求完美的"程序猿来说怎么能够甘心 所以,今天,用pyth ...

  4. 携程ajax,Python爬虫实战之爬取携程评论

    一.分析数据源 这里的数据源是指html网页?还是Aajx异步.对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍. 提示:以下操作均不需要登录(当然登录也可以) 咱们先在浏览器里面搜索携 ...

  5. Python爬虫实战之爬取糗事百科段子

    Python爬虫实战之爬取糗事百科段子 完整代码地址:Python爬虫实战之爬取糗事百科段子 程序代码详解: Spider1-qiushibaike.py:爬取糗事百科的8小时最新页的段子.包含的信息 ...

  6. Python爬虫实战之爬取百度贴吧帖子

    Python爬虫实战之爬取百度贴吧帖子 大家好,上次我们实验了爬取了糗事百科的段子,那么这次我们来尝试一下爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标 对百度贴吧的 ...

  7. Python爬虫实战之爬取网站全部图片(一)

    Python爬虫实战之爬取网站全部图片(二) Python爬虫实战之通过ajax获得图片地址实现全站图片下载(三) 一.获得图片地址 和 图片名称 1.进入网址之后 按F12  打开开发人员工具点击e ...

  8. Python爬虫实战之爬取web网易云音乐——解析

    找到存储歌曲地址的url界面 首先我们要进入网易云的web页面在页面中我们随意选择一首歌曲,打开开发者工具查看响应的界面. 在这些页面中我们需要查找存储有音乐文件的url,这是我们可以打开全局搜索直接 ...

  9. python爬虫常见反爬措施_爬虫常见的反爬措施有哪些

    爬虫常见的反爬措施有三种: 1.header头部信息 解决方法: 加User-Agent值: 如果不加header头,部分网站服务器判断不到用户的访问来源,所以会返回一个404错误来告知你是一个爬虫, ...

  10. Python爬虫实战:爬取解放日报新闻文章

    上一篇<Python 网络爬虫实战:爬取人民日报新闻文章>发布之后,确实帮到了不少朋友. 前几天,我好哥们问我:我想爬另一个日报新闻网站,网页结构几乎跟人民日报几乎一模一样,但是我用你的那 ...

最新文章

  1. Visio如何画数据库里的双线
  2. 汽车成黑客攻击新目标
  3. BindingException异常第一种解决办法
  4. Linux之设置http代理
  5. pythontcp_TCP编程
  6. 一天搞定CSS:层级(z-index)--18
  7. JavaScript模板引擎原理,几行代码的事儿
  8. vs为什么打了断点不断_为什么西餐厅里的牛排又嫩又多汁?原来大厨都做了“这一步”...
  9. 社交网络初探——链路预测
  10. 1007. Maximum Subsequence Sum (25)
  11. 2020年房产经纪行业和购房市场洞察报告
  12. java memcache 实例_Java使用memcache示例
  13. 指针4-指针的运算和指针变量占几个字节
  14. 外设适配-TI954 记录
  15. Linux 进程内存掉电保存,Shell脚本可在Linux断电时停止应用程序
  16. Manjaro - KDE - i3wm - PloyBar 使用配置全指南
  17. View的复用:viewHolder
  18. 蜜罐合约-老版本solidity引用类型的一个坑
  19. 全球公认最搞笑的15则冷笑话
  20. 啊哈添柴挑战Java1222. 输出菱形

热门文章

  1. java gui 打开另一个_从另一个Java服务启动Java GUI应用程序
  2. 英文网站建设应该如何做?如何建好一个英文网站?
  3. 南京大学计算机学类,南京大学计算机专业厉害吗?
  4. 如何0代码快速搭建教育平台,实现线上直播教学【内附源码/Demo】
  5. 笔记本电脑没有外放声音,但是插上耳机有声音的问题解决方法
  6. 玩转华为ENSP模拟器系列 | 配置OSPF ABR路由聚合示例
  7. Windows组策略
  8. MBR分区和GPT分区区别
  9. android textview 英文 自动换行,TextView设置文字包含中英文时自动换行问题的终极解决方案...
  10. word 插入单页页脚