urlLIb包使用来操作web网页的url,可以利用它来进行爬取网页数据

urlLib 包 包含以下几个模块:

  • urllib.request - 打开和读取 URL。
  • urllib.error - 包含 urllib.request 抛出的异常。
  • urllib.parse - 解析 URL。
  • urllib.robotparser - 解析 robots.txt 文件。

urllib.request

urllib.request 可以模拟浏览器的一个请求发起过程。

语法:

实例:

read()  - 读取网页整页内容

# 使用read()  - 读取网页整页内容
from urllib.request import urlopen          # 从urllib包的request模块中导入urlopen模块myURL = urlopen("https://www.runoob.com/")  # 请求网页
# 获取网页的 HTML 实体代码。
print(myURL.read())                         # 输出 在read方法的括号中可以指定读取行数默认是整页

输出:

readline() - 读取文件的一行内容 

from urllib.request import urlopenmyURL = urlopen("https://www.runoob.com/")
line = myURL.readline() # 读取网页一行内容
print(line)

输出:

 readlines() - 读取文件的全部内容,它会把读取的内容赋值给一个列表变量。

from urllib.request import urlopenmyURL = urlopen("https://www.runoob.com/")
lines = myURL.readlines() # 读取文件的全部内容,它会把读取的内容赋值给一个列表变量。
for i in lines:            # 用for循环将其遍历print(i)

输出:

 getcode()  - 函数获取网页状态码

返回 200 说明网页正常,返回 404 说明网页不存在

实例:

import urllib.requestmyURL1 = urllib.request.urlopen("https://www.baidu.com/")
print(myURL1.getcode())   # 200try:myURL2 = urllib.request.urlopen("https://www.baidu.com/aa")
except urllib.error.HTTPError as e:if e.code == 404:print(404)   # 404

输出:

urlLib包的其他模块就不去写实例了,因为后续的requests模块完全可以将其替代,并且语法更加的简洁

总结:

在python3中将原来的urllib、urllib2模块整合到了一起,成了现在的urlLib包,而requests是在urlLib的基础上再进行封装的,也可以叫urllib3,有兴趣可以去了解一下python爬虫库的历史

requests比urlLib包更加的简洁,并且保留了其特性,增加了可读性

在接下来的笔记中我会详细的记录requests模块的使用

打卡第56天,对python大数据感兴趣的朋友欢迎一起讨论、交流,请多指教!

python中urlLib的使用相关推荐

  1. python中urllib.parse啥意思_python-urllib.parse模块简述

    前言 小编最近在编写接口自动化测试用例的过程中,需要将get请求url中的部分参数替换成预设的数据,将url中的具有时效性的auth替换成auth生成方法返回值.经过一番调研,最后选取了python的 ...

  2. python网络爬虫系列教程——python中urllib、urllib2、cookie模块应用全解

    全栈工程师开发手册 (作者:栾鹏) python教程全解 python数据挖掘库urllib.urllib2.cookie知识全解.本文使用python2.7环境,如果需要使用python3的环境只需 ...

  3. python中urllib模块安装_python如何安装urllib

    urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了urllib.基本上涵盖了基础的网络请求功能. 该库有四个模块, ...

  4. python中 urllib, urllib2, httplib, httplib2 几个库的区别

    为什么80%的码农都做不了架构师?>>>    若只使用python3.X, 下面可以不看了, 记住有个urllib的库就行了 python2.X 有这些库名可用: urllib, ...

  5. 关于python中urllib.urlencode的时候出错:UnicodeEncodeError: ‘ascii’的记录

    原文我参见了:http://hi.baidu.com/setcookie/item/ddc6b694b1f13435336eeb3c 我的部分代码 def forDemo(args): try: ur ...

  6. python中urllib.quote出现KeyError

    >>> urllib.quote_plus(u'江南小财主') Traceback (most recent call last):   File "<stdin&g ...

  7. URL详细分析及在python中处理URL

    文章目录 URL URL介绍 URL案例 URL处理 urlparse方法 urlsplit方法 urlunparse方法 urlunsplit方法 urljoin方法 URL序列化与反序列化 其他相 ...

  8. python爬虫用urllib还是reques,python爬虫中urllib.request和requests有什么区别?

    在学习python爬虫,想要检索request相关内容时,往往会出现urllib.request和requests这两个词,urllib.request和requests都是python爬虫的模块,其 ...

  9. pythonurllib模块-Python中的urllib模块使用详解

    urllib模块提供的上层接口,使我们可以像读取本地文件一样读取www和ftp上的数据.每当使用这个模块的时候,老是会想起公司产品的客户端,同事用C++下载Web上的图片,那种"痛苦&quo ...

最新文章

  1. 数据挖掘过程中:数据预处理
  2. 如何在vue中使用sass
  3. 软件外包项目中的进度管理
  4. ssh远程连接(ubuntu、windows)
  5. html背景图适应div_CSS实现背景图片屏幕自适应
  6. 具体问题具体分析 之 QA票
  7. PictureBox滚动条、鼠标中轴滚动
  8. oracle goldengate 触发器,Oracle goldengate的触发器错误 OGG-00869
  9. nexus build docker private registry
  10. sql server 2000(迷你sql2000) jdbc驱动
  11. Qt Creator 使用教程
  12. Word转换PDF的三种方法使用教程
  13. 降噪蓝牙耳机评测排行榜最新,综合表现好的降噪蓝牙耳机分享
  14. 如何在众多快递物流中筛选出代收的单号
  15. Dragonfly 中 P2P 传输协议优化
  16. mbedtls学习2.mbedtls从0使用指南
  17. 聚类评价指标(轮廓系数 Silhouette coefficient)
  18. 一个普通人怎么样一年内赚够20万
  19. Android 与OpenCV454,实现模式匹配,色彩空间转换,QRcode识别
  20. 嵌入式Linux驱动笔记(二十四)------framebuffer之使用spi-tft屏幕(上)

热门文章

  1. 使用displsy:flex + overflow:hidden时子元素被压缩
  2. python中组合框_如何从SQL填充组合框数据?使用Python
  3. python中head_Python(Head First)学习笔记:六
  4. ajax 表格删除,jQuery AJAX删除只捕获第一个表格
  5. python上网行为分析_python实战练手项目---获取谷歌浏览器的历史记录,分析一个人的上网行为...
  6. python创建和控制的实体称为_Python eds包_程序模块 - PyPI - Python中文网
  7. 字符的用意_北辰的符号意义 阅读答案
  8. 语法分析程序的设计与实现_编译工程7:语法分析(5)
  9. 如何在一台没有网的电脑上安装anaconda_简述验证Anaconda是否安装成功的两种方式...
  10. golang 日志分析_Saferwall:下一代开源恶意软件分析平台