urllib 模块学习
urllib.urlopen('网址'):这里传入urlopen()的参数有特别说要求,要遵循一些网络协议,比如http,ftp。
也就是说,在网址的开头必须要有http://这样的说明,如:urllib.urlopen('http://www.baidu.com')。
要么就是本地文件,本地文件需要使用file关键字,比如urllib.urlopen('file:hello.py')。
注意,这里的hello.py是指的是当前的classpath所指定的内容,当然也可以直接写全部路径,urllib.urlopen('file:F:\pythontest\hello.py')。
#-*- coding:utf-8 -*-
import urllibf = urllib.urlopen('http://www.baidu.com')
print f.read()
print f.info()
print f.getcode()
如果传入的参数正确,比如该网站可以访问,没有特殊情况(比如需要代理等),那么将返回一个类似于文件对象的对象。即上面代码中的f,f对象有的方法一些操作方法,使用dir(f):
>>> dir(f) ['__doc__', '__init__', '__iter__', '__module__', '__repr__', 'close', 'code', 'fileno', 'fp', 'getcode', 'geturl', 'headers', 'info', 'next', 'read', 'readline', 'readlines', 'url']
urlopen返回 一个类文件对象,他提供了如下方法:
- read() , readline() , readlines() , fileno() , close() :这些方法的使用方式与文件对象完全一样;
- info():返回一个httplib.HTTPMessage 对象,表示远程服务器返回的头信息;
- getcode():返回Http状态码。如果是http请求,200表示请求成功完成;404表示网址未找到;
- geturl():返回请求的url;
使用read()方法会将所有内容读取出来,并且不能返回重读,在使用f.read()将得不到任何数据,也就是说,得到的数据在这个时候如果想在后面进行任何处理操作的话,需要另外定义一个对象来进行存储
转载于:https://www.cnblogs.com/Roger1227/archive/2013/05/18/3086329.html
urllib 模块学习相关推荐
- urllib模块学习
已剪辑自: http://xiaobaibook.com/details/51/ 概念:urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模 ...
- python urllib模块学习笔记
这个模块是最基本最常用的,以前看过,总结一下 # coding : utf-8 import urllib url = 'http://cnblogs.com' #代理服务器 proxies = {' ...
- pythonurllib模块-python爬虫之urllib模块和requests模块学习
今天学习了request模块和urllib模块,了解到这两个模块最大的区别就是在爬取数据的时候连接方式的不同.urllb爬取完数据是直接断开连接的,而requests爬取数据之后可以继续复用socke ...
- 爬虫实战学习笔记_3 网络请求urllib模块:设置IP代理+处理请求异常+解析URL+解码+编码+组合URL+URL连接
1 设置IP代理 1.1 方法论述 使用urllib模块设置代理IP是比较简单的,首先需要创建ProxyHandler对象,其参数为字典类型的代理IP,键名为协议类型(如HTTP或者HTTPS),值为 ...
- 爬虫实战学习笔记_2 网络请求urllib模块+设置请求头+Cookie+模拟登陆
1 urllib模块 1.1 urllib模块简介 Python3中将urib与urllib2模块的功能组合,并且命名为urllib.Python3中的urllib模块中包含多个功能的子模块,具体内容 ...
- python urllib2模块安装,Python urllib和urllib2模块学习(二)
一.urllib其它函数 前面介绍了 urllib 模块,以及它常用的 urlopen() 和 urlretrieve()函数的使用介绍.当然 urllib 还有一些其它很有用的辅助方法,比如对 ur ...
- Python爬虫之urllib模块2
Python爬虫之urllib模块2 本文来自网友投稿 作者:PG-55,一个待毕业待就业的二流大学生. 看了一下上一节的反馈,有些同学认为这个没什么意义,也有的同学觉得太简单,关于Beautiful ...
- python下载网页中的pdf文件_【Python】Python的urllib模块、urllib2模块批量进行网页下载文件...
由于需要从某个网页上下载一些PDF文件,但是需要下载的PDF文件有几百个,所以不可能用人工点击来下载.正好Python有相关的模块,所以写了个程序来进行PDF文件的下载,顺便熟悉了Python的url ...
- python爬虫-urllib模块
urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象.urllib 支持各种 web 协议,例如:HTTP.FTP.Gophe ...
最新文章
- js中的装饰器执行顺序
- python点的作用-python中三引号的作用(逗号的两点总结)
- Linux下往移动硬盘拷贝数据步骤方式
- WARN [com.mchange.v2.async.ThreadPoolAsynchronousRunner] - com.mchange.v2.as
- C语言实现面向对象的思想
- 使用UIWebView载入本地或远程server上的网页
- java学习(142):file类的基本创建
- Mybatis(12)事务原理和自动提交设置
- Mac系统下安装webpack,cnpm,vue-cli
- 第二个结对编程——UI设计
- Introduction to Cryptography
- 计算机二级未来教育押题准吗,计算机二级快速通关秘籍,21%的合格率真相原来是这样!...
- 【广东大学生网络攻防大赛-WriteUp(非官方)】Misc | 复合
- 7-12 分解质因数 (10分)
- 经典计算机书籍【转贴
- 《视觉SLAM十四讲》笔记(1-3)
- 高中必备学习软件_有那些免费好用的高中学习软件?
- Springboot毕业设计毕设作品,黑白图片和上色处理系统 开题报告
- QOpenGLWidget显示视频流数据
- Zigbee(3) ---- 无线温度检测试验
热门文章
- asp sql查询过滤空格_对比Excel,轻松学习SQL数据分析数据笔记02
- css使两个盒子并列_css如何去掉重叠部分的边框?
- 二维gabor滤波器matlab,matlab中实现Gabor滤波器 | 学步园
- adb指令禁用软件_三星等安卓手机续航差?禁用部分系统组件后提升明显
- 均匀白噪声的定义及特点_职业卫生噪声布点与检测实务
- selenium webdriver 如何添加cookie
- jquery入门与实践案例教程
- idea查看方法的返回类型和自动出来变量
- VUE第三篇 入门后续
- mybatis there is no getter named forInteger