Python爬虫入门_之urllib2urllib

####笔者是在python2.7环境下学习爬虫的

import urllib2   #引入模块
import urllib
html = urllib2.urlopen('http://www.jikexueyuan.com')
html.read()

以上几行，简单的把极客学院的html页面爬下来了，分析一下urllib2模块：

# urlopen()
>>> urllib2.urlopen(url, data, timeout) #第一个参数是打开的url，第二个是，将要传入的参数
这里涉及到用get/post方式请求打开url
>>> value = {'username':'root','password':123456}
>>> param = urllib.urlencode(value)
>>> print param
'username=root&password=123456'
>>> html = urllib2.urlopen('www.ccut.edu.cn?%s' % param) #以get方式请求
>>> html = urllib2.urlopen('www.ccut.edu.cn', param)#以post方式请求
>>>

#urllib2.Request()可以用来设置代理防止反爬虫
>>> user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
>>> headers = { 'User-Agent' : user_agent }
>>> request = urllib2.Request(url, param, headers)#此处的url,param都同上
>>> response = urllib2.urlopen(request)
>>> response.read() #到此结束，重新定义了代理

代理设置：假如一个网站它会检测某一段时间某个IP 的访问次数，如果访问次数过多，它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作，每隔一段时间换一个代理

enable_proxy = True
proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'})
null_proxy_handler = urllib2.ProxyHandler({})
if enable_proxy:opener = urllib2.build_opener(proxy_handler)
else:opener = urllib2.build_opener(null_proxy_handler)
urllib2.install_opener(opener)

模拟登录：

 #很多网页需要登录才能看到我们想要抓取的内容，我们可以模拟登录这个过程，保存cookie：url = 'www.ccut.edu.cn'cookj = cookielib.CookieJar()opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookj))urllib2.install_opener(opener)response = urllib2.urlopen(url)

更多详细请参考这篇文章http://cuiqingcai.com/954.html

Python爬虫入门_之urllib2urllib相关推荐

python爬虫正则表达式实例-3.Python爬虫入门_正则表达式(简单例子)
1 #2019-11-23 2 importrequests3 importtime4 import re #Python正则表达式库 5 6 if __name__=='__main__':7 #海 ...
慕课网python零基础入门教程_零基础Python爬虫入门学习一之综述
原标题:零基础Python爬虫入门学习一之综述大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章 ...
python爬虫入门教程--优雅的HTTP库requests（二）
requests 实现了 HTTP 协议中绝大部分功能,它提供的功能包括 Keep-Alive.连接池.Cookie持久化.内容自动解压.HTTP代理.SSL认证等很多特性,下面这篇文章主要给大家介绍 ...
python爬虫入门教程--快速理解HTTP协议（一）
http协议是互联网里面最重要,最基础的协议之一,我们的爬虫需要经常和http协议打交道.下面这篇文章主要给大家介绍了关于python爬虫入门之快速理解HTTP协议的相关资料,文中介绍的非常详细,需要 ...
python爬虫入门代码-Python爬虫入门
原标题:python爬虫入门基础知识 HTTP协议我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端 ...
python网络爬虫的基本步骤-黑客基础编写Python爬虫入门步骤
原标题:黑客基础编写Python爬虫入门步骤信息时代,数据就是宝藏.数据的背后隐含着无穷的宝藏,这些宝藏也许就是信息量所带来的商业价值,而大数据本身也将成为桌面上的筹码. 黑客花无涯带你走进黑客 ...
python爬虫程序实例-10个python爬虫入门实例
作者:h3zh1 来源:cnblogs.com/h3zh1/p/12548946.html 今天为大家准备了几个简单的python爬虫入门实例,分享给大家. 涉及主要知识点:web是如何交互的 req ...
python爬虫入门实例-终于领会python爬虫入门示例
随着人工智能大数据的火热 Python成为了广大科学家和普通大众的学习语言.在学习Python的过程中有很多人感到迷茫不知道自己该从什么地方入手,今天我们就来说一些新手该如何学习Python编程 ...
python爬虫入门代码-Python爬虫入门（一）网络爬虫之规则
Python爬虫入门(一) 总述本来早就想学习下python爬虫了,总是找各种借口,一直拖到现在才开始系统的学习. 我用的教程是中国大学MOOC上的由北京理工大学开设的Python网络爬虫与信息提取 ...

Python爬虫入门_之urllib2urllib

Python爬虫入门_之urllib2urllib相关推荐

最新文章

热门文章