urllib.parse库定义了处理URL的标准接口,例如实现URL各部分的抽取、合并以及链接转换。它支持如下协议的URL处理:file、ftp、gopher、hdl、http、https等。

1.urlparse()

该方法可以实现URL的识别和分段,这里先用一个实例来看一下:

from urllib.parse import urlparseresult = urlparse('http://www.baidu.com/index.html;user?id=5#comment')
print(type(result), result)
<class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.baidu.com', path='/index.html', params='user', query='id=5', fragment='comment')

这里我们利用urlparse()方法进行了一个URL的解析。首先,输出了解析结果的类型,然后将结果也输出出来。

可以看到,返回结果是一个ParseResult类型的对象,它包含6部分,分别是scheme、netloc、path、params、query和fragment。

观察一下该实例的URL,可以发现,urlparse()方法将其拆分成了6部分。大体观察可以发现,解析时有特定的分隔符。比如,

python网络爬虫学习笔记(五):urllib.parse库相关推荐

  1. python网络爬虫学习笔记(6)动态网页抓取(一)知识

    文章目录 网络爬虫学习笔记(2) 1 资料 2 笔记 2-1 动态抓取概述 2-2 通过浏览器审查元素解析真实网页地址 2-3 网页URL地址的规律 2-4 json库 2-5 通过Selenium模 ...

  2. python网络爬虫学习笔记(7)动态网页抓取(二)实践

    文章目录 1 资料 2 笔记 2-1 准备 2-1-1. 网址 2-2-2 文本位置 2-2 代码 2-2-1 原型 2-2-2 ver0.1 1 资料 <Python网络爬虫从入门到实践> ...

  3. python网络爬虫学习笔记(三):urllib库的使用

    文章目录 使用urllib库 1.urllib.request.urlopen()函数 urlopen()函数API: 2.urllib.request函数 验证 Cookies 保存Cookies ...

  4. Python网络爬虫学习笔记(二)基本库的使用

    基本库的使用 最基础的 HTTP 库有 urllib . httplib2 . requests . treq 等 . 使用urlib urlib 包含四个模块 口 request : 它是最基本的 ...

  5. python 网络爬虫学习笔记(一)

    为了方便,在Windows下我用了PyCharm,个人感觉这是一款优秀的python学习软件.爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去 ...

  6. python网络编程需要学什么,python网络编程学习笔记(五):socket的一些补充 Python 网络编程需要学习哪些网络相关的知识...

    python的socket编程问题hdr = recvall(s, 5) if hdr is None: print 'Unexpected EOF receivingstruct在unpack的时候 ...

  7. python网络爬虫学习笔记(十一):Ajax数据爬取

    文章目录 1.基本介绍 2.基本原理 3.实战 有时候我们在用requests抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用requests得到 ...

  8. python网络爬虫学习笔记2

    1.fiddler的使用 (1)右上是HTTP请求信息, 右下是http响应信息,点击黄色条解码 (2)Raw请求详细信息,raw响应所有信息 (3)webForms请求所带参数 (4)json接口响 ...

  9. python网络爬虫学习笔记(九):Beautiful Soup的使用

    文章目录 1.基本用法 2.节点选择器 2.1 获取属性和名称 2.2 获取内容 (1)子节点和子孙节点 (2)父节点和祖先节点 (3)兄弟节点 3.方法选择器 4.CSS选择器 Beautiful ...

最新文章

  1. 分布式服务追踪与调用链系统
  2. Paxos算法与Zookeeper分析
  3. 年纪都这么大了,还在倒班工作......
  4. 机器学习应用中的UI个性化
  5. php怎么获得产品id,php – 如何获取Woocommerce产品中的Variation ID
  6. Kubernates和Docker
  7. 安装nginx make install 报错/usr/include/fastdfs/fdfs_define.h:15:27: fatal error: common_define.h: No su
  8. 用伪代码梳理springcloud
  9. 【从零开始学架构-李运华】01|架构到底是指什么?
  10. matlab赌徒破产模型转移矩阵,基于matlab的土地利用转移矩阵及土地利用转移空间分布...
  11. 最好的Linux文件管理器,适用于 Linux 用户的 10 款优秀且免费的文件管理器
  12. 【光斑PSF处理】激光光斑数据处理含matlab源码-含文档【0102期】
  13. 2019亚信科技java实习面试笔试经验分享(已成功入职)
  14. 线性表篇 什么是线性表
  15. android 图片读写,Android读取本地照片和视频相册
  16. 西游记中孙悟空有哪些技能?
  17. 竞价网站服务器,派代网-竞价网站被攻击的完美解决方法
  18. 行泊一体冰火两重天:1000万辆市场释放,量产难题待解
  19. Ubuntu Cleaner清理工具
  20. ASCII - 美国信息交换标准代码

热门文章

  1. 医疗信息季节:在医疗行业未来的变化(继续前传)
  2. 我的博客园开张了,记录每天学习,工作。
  3. 总结开发Silverlight项目准则 [转]
  4. GridView 中的事件
  5. matlab ode45 初值,为什么设定的初值在ode45里无效?
  6. BZOJ 2456: mode
  7. 表达式求值(NOIP2013 普及组第二题)
  8. SAP 录屏BDC使用—实例 \
  9. 一点一点学习Ubuntu
  10. 《设计模式详解》创建型模式 - 建造者模式