python爬虫教程--代理服务器
一.代理服务器设置
如果使用同一个IP去爬取一个网站的网页,时间久了会别该网站服务器屏蔽,所以,为了防止出现自己的IP被网站服务器屏蔽的事情发生,我们可以使用比如的IP,就算别屏蔽了,也是别人的IP,如果不知道怎么找代理服务器的可以到网上找
首先我们介绍几个方法:
ProxyHandler() 方法:这个是设置对应的服务器信息,设置格式如下:url.request.ProxyHandler({'http':代理服务器的地址})
build_open()方法:这个方法创建一个自定义的opener对象
例如:
def use_proxy(proxy_addr,url):import urllib.requestproxy=urllib.request.ProxyHandler({'http':proxy_addr})opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)urllib.request.install_opener(opener)data=urllib.request.urlopen(url).read().decode('utf-8')return data
proxy_addr="202.75.210.45:7777"
data=use_proxy(proxy_addr,"http://www.baidu.com")
print(len(data))
二.DebugLog实战
如果想在程序运行时边运行边打印调试日志,此时就需要开启Debuglog,开启Bebuglog方法如下:
(1)使用urllib.request.HTTPHandler()和urllib.request.HTTPShandler()将debuglevel设置为1
(2)使用urllb.request.build_opener()创建自定义的opener对象,并使用(1)中设置的值作为参数
(3)使用urllib.request.install_opener()创建全局默认的opener对象,这样,使用urlopen时也会自动使用我们安装的opener对象
(4)进行后续操作
根据上面的思路,可以通过代码开启BebugLog:
import urllib.request
httphd=urllib.request.HTTPHandler(debuglevel=1)
httpshd=urllib.request.HTTPSHandler(debuglevel=1)
opener=urllib.request.build_opener(httphd,httpshd)
urllib.request.install_opener(opener)
data=urllib.request.urlopen("http://www.baidu.com")
当我们运行程序时就会打印调试的Log日志
python爬虫教程--代理服务器相关推荐
- python爬虫教程:爬虫时如何知道是否代理ip伪装成功
python爬虫教程:爬虫时如何知道是否代理ip伪装成功 有时候我们的爬虫程序添加了代理,但是我们不知道程序是否获取到了ip,尤其是动态转发模式的,这时候就需要进行检测了,以下是一种代理是否伪装成功的 ...
- python爬虫抓取图片-简单的python爬虫教程:批量爬取图片
python编程语言,可以说是新型语言,也是这两年来发展比较快的一种语言,而且不管是少儿还是成年人都可以学习这个新型编程语言,今天南京小码王python培训机构变为大家分享了一个python爬虫教程. ...
- python 爬虫实例 电影-Python爬虫教程-17-ajax爬取实例(豆瓣电影)
Python爬虫教程-17-ajax爬取实例(豆瓣电影) ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互 对于ajax: ...
- 爬虫python代码-Python爬虫教程:200行代码实现一个滑动验证码
Python爬虫教程:教你用200行代码实现一个滑动验证码 做网络爬虫的同学肯定见过各种各样的验证码,比较高级的有滑动.点选等样式,看起来好像挺复杂的,但实际上它们的核心原理还是还是很清晰的,本文章大 ...
- 下载 | 9G火爆的Python爬虫教程+ 520页《图解机器学习》
前段时间,小伙伴多次在后台留言询问Python爬虫教程的问题.经过这两个多月以来的收集与整理,汇集了多个高校以及公开课视频教程,包括python爬虫的入门.进阶与实践,共9G左右.爬虫作为机器学习语料 ...
- python读取html_从零开始的Python爬虫教程(一):获取HTML文档
前言:在上一节从零开始的Python爬虫教程(零):粗识HTML结构中,粗略给大家介绍了一下HTML文档,是为了在接下来的教程中让大家更容易理解和掌握.在接下来的教程中,需要大家提前安装python3 ...
- python爬虫代码-Python爬虫教程:200行代码实现一个滑动验证码
Python爬虫教程:教你用200行代码实现一个滑动验证码 做网络爬虫的同学肯定见过各种各样的验证码,比较高级的有滑动.点选等样式,看起来好像挺复杂的,但实际上它们的核心原理还是还是很清晰的,本文章大 ...
- 无敌python爬虫教程学习笔记(一)
python爬虫系列文章目录 无敌python爬虫教程学习笔记(一) 无敌python爬虫教程学习笔记(二) 无敌python爬虫教程学习笔记(三) 无敌python爬虫教程学习笔记(四) 本文目录 ...
- 无敌python爬虫教程学习笔记(二)
系列文章目录 无敌python爬虫教程学习笔记(一) 无敌python爬虫教程学习笔记(二) 无敌python爬虫教程学习笔记(三) 无敌python爬虫教程学习笔记(四) 手刃一个小爬虫 系列文章目 ...
最新文章
- 如何让vue项目打包出来之后更加小巧?
- 阿里云发布勒索病毒专杀工具:一键修复 彻底查杀
- Ubuntu 安装 redmine
- makex机器人程序_收藏!MakeX 机器人挑战赛2018全球最新赛程和赛事手册公布
- PAT乙级1011.A+B和C (15)(15 分)
- php中对象传值方式,php实现对象传值方式的具体案例
- 终极解密!输入网址按回车到底发生了什么?
- linux按键检测程序,Tiny4412 Linux驱动之按键(使用查询方式) | 技术部落
- vue中使用ue编辑器的一些简易说明
- Linux下为Calibre书库打中文目录名与文件名补丁
- PythonC++相互混合调用编程全面实战-24QT按钮事件的Open槽函数中调用python函数
- python破解Excel文件密码
- 201771010112罗松《面向对象程序设计(java)》第八周学习总结
- 图片与文字排版-flex
- 【JVM】8_对象优先在Eden分配
- 中国手机显示屏产业运作状况与发展格局分析报告2022版
- 什么是`前端路由`?什么时候使用`前端路由`?`前端路由`存在哪些优缺点?
- 如何让人工智能教育走进中小学课堂?
- java获取7天后的日期_java 获取最近7天 最近今天的日期
- 忘记电脑密码 ,修改开机密码