####笔者是在python2.7环境下学习爬虫的

import urllib2   #引入模块
import urllib
html = urllib2.urlopen('http://www.jikexueyuan.com')
html.read()

以上几行,简单的把极客学院的html页面爬下来了,分析一下urllib2模块:


# urlopen()
>>> urllib2.urlopen(url, data, timeout) #第一个参数是打开的url,第二个是,将要传入的参数
这里涉及到用get/post方式请求打开url
>>> value = {'username':'root','password':123456}
>>> param = urllib.urlencode(value)
>>> print param
'username=root&password=123456'
>>> html = urllib2.urlopen('www.ccut.edu.cn?%s' % param) #以get方式请求
>>> html = urllib2.urlopen('www.ccut.edu.cn', param)#以post方式请求
>>>

#urllib2.Request()可以用来设置代理防止反爬虫
>>> user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
>>> headers = { 'User-Agent' : user_agent }
>>> request = urllib2.Request(url, param, headers)#此处的url,param都同上
>>> response = urllib2.urlopen(request)
>>> response.read() #到此结束,重新定义了代理

代理设置:假如一个网站它会检测某一段时间某个IP 的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理

enable_proxy = True
proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'})
null_proxy_handler = urllib2.ProxyHandler({})
if enable_proxy:opener = urllib2.build_opener(proxy_handler)
else:opener = urllib2.build_opener(null_proxy_handler)
urllib2.install_opener(opener)

模拟登录:

 #很多网页需要登录才能看到我们想要抓取的内容,我们可以模拟登录这个过程,保存cookie:url = 'www.ccut.edu.cn'cookj = cookielib.CookieJar()opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookj))urllib2.install_opener(opener)response = urllib2.urlopen(url)

更多详细请参考这篇文章http://cuiqingcai.com/954.html

Python爬虫入门_之urllib2urllib相关推荐

  1. python爬虫正则表达式实例-3.Python爬虫入门_正则表达式(简单例子)

    1 #2019-11-23 2 importrequests3 importtime4 import re #Python正则表达式库 5 6 if __name__=='__main__':7 #海 ...

  2. 慕课网python零基础入门教程_零基础Python爬虫入门学习一之综述

    原标题:零基础Python爬虫入门学习一之综述 大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章 ...

  3. python爬虫入门教程--优雅的HTTP库requests(二)

    requests 实现了 HTTP 协议中绝大部分功能,它提供的功能包括 Keep-Alive.连接池.Cookie持久化.内容自动解压.HTTP代理.SSL认证等很多特性,下面这篇文章主要给大家介绍 ...

  4. python爬虫入门教程--快速理解HTTP协议(一)

    http协议是互联网里面最重要,最基础的协议之一,我们的爬虫需要经常和http协议打交道.下面这篇文章主要给大家介绍了关于python爬虫入门之快速理解HTTP协议的相关资料,文中介绍的非常详细,需要 ...

  5. python爬虫入门代码-Python爬虫入门

    原标题:python爬虫入门 基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端 ...

  6. python网络爬虫的基本步骤-黑客基础 编写Python爬虫入门步骤

    原标题:黑客基础 编写Python爬虫入门步骤 信息时代,数据就是宝藏.数据的背后隐含着无穷的宝藏,这些宝藏也许就是信息量所带来的商业价值,而大数据本身也将成为桌面上的筹码. 黑客花无涯 带你走进黑客 ...

  7. python爬虫程序实例-10个python爬虫入门实例

    作者:h3zh1 来源:cnblogs.com/h3zh1/p/12548946.html 今天为大家准备了几个简单的python爬虫入门实例,分享给大家. 涉及主要知识点:web是如何交互的 req ...

  8. python爬虫入门实例-终于领会python爬虫入门示例

    随着人工智能 大数据的火热 Python成为了广大科学家和普通大众的学习语言.在学习Python的过程中 有很多人感到迷茫 不知道自己该从什么地方入手,今天我们就来说一些新手该如何学习Python编程 ...

  9. python爬虫入门代码-Python爬虫入门(一) 网络爬虫之规则

    Python爬虫入门(一) 总述 本来早就想学习下python爬虫了,总是找各种借口,一直拖到现在才开始系统的学习. 我用的教程是中国大学MOOC上的由北京理工大学开设的Python网络爬虫与信息提取 ...

最新文章

  1. WhatsApp与Gmail用户数均突破10亿大关
  2. 不是计算机专业学python能找到工作吗-本科学历,非计算机专业,想学Python找工作靠谱吗?...
  3. 利用OpenCV的VideoWriter类实现视频的写操作
  4. 第四天2017/03/31(上午:指针、数组的小知识)
  5. matlab自带kpca,求对矩阵进行PCA或者KPCA特征提取的matlab代码
  6. GoCD notes
  7. linux-关于用户的约定
  8. python读取html文件正则替换_Python使用正则表达式过滤或替换HTML标签的方法详解...
  9. 6复数与复变函数(六)
  10. com.google.common.base.Preconditions.checkNotNull(Preconditions.java:877)
  11. Routerboard/DR4019S-Qualcomm-IPQ4019-2T2R-Dual-Band-2-4GHz-5GHz-support-OpenWRT-802.11ac-Wave-2.
  12. f2fs学习笔记 - 1. f2fs概述
  13. 中国医院评审/评级标准及区别和特点
  14. At91sam9g35K烧录Linux系统
  15. Python与SEO,搜狗站长平台网站提交POST源码
  16. (E2)ENVI-met模型建立——创建项目及数据库的使用
  17. 顺丰快递查询接口的调用方法(附带源码)
  18. 计算机中1 tb的硬盘容量大小等于,大脑记忆容量等于多大硬盘?
  19. c语言字符数组自动填充,数组在C中自动填充
  20. 自动分割mp3等音频视频文件的脚本

热门文章

  1. 【源码阅读】dbutil包中BasicRowProcessor内部类CaseInsensiti...
  2. javascript中call和apply的区别
  3. 《课程的反思与重建--我们需要什么样的课程观》之学习体会
  4. 信息烟尘中的学习方法
  5. C/C++编译器教程之如何安装vs,看了的人应该都会装,只要不手残
  6. 如何清空android ListView控件的内容
  7. 一周最新示例代码回顾 (4/2–4/8)
  8. 存储过程与触发器的区别
  9. 基于主机Overlay和自研虚拟化网关的VPC在360的落地
  10. activity启动流程_以AMS视角看Activity启动过程