一.代理服务器设置

如果使用同一个IP去爬取一个网站的网页,时间久了会别该网站服务器屏蔽,所以,为了防止出现自己的IP被网站服务器屏蔽的事情发生,我们可以使用比如的IP,就算别屏蔽了,也是别人的IP,如果不知道怎么找代理服务器的可以到网上找

首先我们介绍几个方法:

ProxyHandler() 方法:这个是设置对应的服务器信息,设置格式如下:url.request.ProxyHandler({'http':代理服务器的地址})

build_open()方法:这个方法创建一个自定义的opener对象

例如:

def use_proxy(proxy_addr,url):import urllib.requestproxy=urllib.request.ProxyHandler({'http':proxy_addr})opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)urllib.request.install_opener(opener)data=urllib.request.urlopen(url).read().decode('utf-8')return data
proxy_addr="202.75.210.45:7777"
data=use_proxy(proxy_addr,"http://www.baidu.com")
print(len(data))

二.DebugLog实战

如果想在程序运行时边运行边打印调试日志,此时就需要开启Debuglog,开启Bebuglog方法如下:

(1)使用urllib.request.HTTPHandler()和urllib.request.HTTPShandler()将debuglevel设置为1

(2)使用urllb.request.build_opener()创建自定义的opener对象,并使用(1)中设置的值作为参数

(3)使用urllib.request.install_opener()创建全局默认的opener对象,这样,使用urlopen时也会自动使用我们安装的opener对象

(4)进行后续操作

根据上面的思路,可以通过代码开启BebugLog:

import urllib.request
httphd=urllib.request.HTTPHandler(debuglevel=1)
httpshd=urllib.request.HTTPSHandler(debuglevel=1)
opener=urllib.request.build_opener(httphd,httpshd)
urllib.request.install_opener(opener)
data=urllib.request.urlopen("http://www.baidu.com")

当我们运行程序时就会打印调试的Log日志

python爬虫教程--代理服务器相关推荐

  1. python爬虫教程:爬虫时如何知道是否代理ip伪装成功

    python爬虫教程:爬虫时如何知道是否代理ip伪装成功 有时候我们的爬虫程序添加了代理,但是我们不知道程序是否获取到了ip,尤其是动态转发模式的,这时候就需要进行检测了,以下是一种代理是否伪装成功的 ...

  2. python爬虫抓取图片-简单的python爬虫教程:批量爬取图片

    python编程语言,可以说是新型语言,也是这两年来发展比较快的一种语言,而且不管是少儿还是成年人都可以学习这个新型编程语言,今天南京小码王python培训机构变为大家分享了一个python爬虫教程. ...

  3. python 爬虫实例 电影-Python爬虫教程-17-ajax爬取实例(豆瓣电影)

    Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: ...

  4. 爬虫python代码-Python爬虫教程:200行代码实现一个滑动验证码

    Python爬虫教程:教你用200行代码实现一个滑动验证码 做网络爬虫的同学肯定见过各种各样的验证码,比较高级的有滑动.点选等样式,看起来好像挺复杂的,但实际上它们的核心原理还是还是很清晰的,本文章大 ...

  5. 下载 | 9G火爆的Python爬虫教程+ 520页《图解机器学习》

    前段时间,小伙伴多次在后台留言询问Python爬虫教程的问题.经过这两个多月以来的收集与整理,汇集了多个高校以及公开课视频教程,包括python爬虫的入门.进阶与实践,共9G左右.爬虫作为机器学习语料 ...

  6. python读取html_从零开始的Python爬虫教程(一):获取HTML文档

    前言:在上一节从零开始的Python爬虫教程(零):粗识HTML结构中,粗略给大家介绍了一下HTML文档,是为了在接下来的教程中让大家更容易理解和掌握.在接下来的教程中,需要大家提前安装python3 ...

  7. python爬虫代码-Python爬虫教程:200行代码实现一个滑动验证码

    Python爬虫教程:教你用200行代码实现一个滑动验证码 做网络爬虫的同学肯定见过各种各样的验证码,比较高级的有滑动.点选等样式,看起来好像挺复杂的,但实际上它们的核心原理还是还是很清晰的,本文章大 ...

  8. 无敌python爬虫教程学习笔记(一)

    python爬虫系列文章目录 无敌python爬虫教程学习笔记(一) 无敌python爬虫教程学习笔记(二) 无敌python爬虫教程学习笔记(三) 无敌python爬虫教程学习笔记(四) 本文目录 ...

  9. 无敌python爬虫教程学习笔记(二)

    系列文章目录 无敌python爬虫教程学习笔记(一) 无敌python爬虫教程学习笔记(二) 无敌python爬虫教程学习笔记(三) 无敌python爬虫教程学习笔记(四) 手刃一个小爬虫 系列文章目 ...

最新文章

  1. 如何让vue项目打包出来之后更加小巧?
  2. 阿里云发布勒索病毒专杀工具:一键修复 彻底查杀
  3. Ubuntu 安装 redmine
  4. makex机器人程序_收藏!MakeX 机器人挑战赛2018全球最新赛程和赛事手册公布
  5. PAT乙级1011.A+B和C (15)(15 分)
  6. php中对象传值方式,php实现对象传值方式的具体案例
  7. 终极解密!输入网址按回车到底发生了什么?
  8. linux按键检测程序,Tiny4412 Linux驱动之按键(使用查询方式) | 技术部落
  9. vue中使用ue编辑器的一些简易说明
  10. Linux下为Calibre书库打中文目录名与文件名补丁
  11. PythonC++相互混合调用编程全面实战-24QT按钮事件的Open槽函数中调用python函数
  12. python破解Excel文件密码
  13. 201771010112罗松《面向对象程序设计(java)》第八周学习总结
  14. 图片与文字排版-flex
  15. 【JVM】8_对象优先在Eden分配
  16. 中国手机显示屏产业运作状况与发展格局分析报告2022版
  17. 什么是`前端路由`?什么时候使用`前端路由`?`前端路由`存在哪些优缺点?
  18. 如何让人工智能教育走进中小学课堂?
  19. java获取7天后的日期_java 获取最近7天 最近今天的日期
  20. 忘记电脑密码 ,修改开机密码

热门文章

  1. 如何监控员工电脑剪贴板并查看记录
  2. 计算机应用专升本代码江苏,2008年江苏省“专转本”计算机应用基础真题及答案.doc...
  3. 俄罗斯陨石坠落伤者超过100人
  4. Java基础 面向对象的详解
  5. 数组定义时,大小必须为常量
  6. android 手机不能发短信
  7. 郑州轻工业大学OJ1024: 计算字母序号
  8. HDU 4859 海岸线 最小割
  9. Delphi XE GDI+编程
  10. word封面左侧的装订线旁边的装订圆孔 制作