在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块,然后将网页数据通过lxml下的etree转化为treedata的形式

urllib库中使用xpath表达式

etree.HTML()将获取到的html字符串,转换成树形结构,也就是xpath表达式可以获取的格式

#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib.request
from lxml import etree  #导入html树形结构转换模块wye = urllib.request.urlopen('http://sh.qihoo.com/pc/home').read().decode("utf-8",'ignore')
zhuanh = etree.HTML(wye)  #将获取到的html字符串,转换成树形结构,也就是xpath表达式可以获取的格式
print(zhuanh)
hqq = zhuanh.xpath('/html/head/title/text()') #通过xpath表达式获取标题#注意,xpath表达式获取到数据,有时候是列表,有时候不是列表所以要做如下处理
if str(type(hqq)) == "<class 'list'>":  #判断获取到的是否是列表print(hqq)
else:xh_hqq = [i for i in hqq]       #如果不是列表,循环数据组合成列表print(xh_hqq)#返回 :['【今日爆点】你的专属资讯平台']

BeautifulSoup基础

BeautifulSoup是获取thml元素的模块

BeautifulSoup-3.2.1版本

如果你依然在编程的世界里迷茫,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的。交流经验。从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地

web爬虫讲解—urllib库中使用xpath表达式—BeautifulSoup基础相关推荐

  1. python3 urlencode_Python2和Python3中urllib库中urlencode的使用注意事项

    前言 在Python中,我们通常使用urllib中的urlencode方法将字典编码,用于提交数据给url等操作,但是在Python2和Python3中urllib模块中所提供的urlencode的包 ...

  2. Python 爬虫之urllib库的使用

    urllib库 urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urlli ...

  3. python urllib.request 爬虫 数据处理-python 爬虫之 urllib库

    文章更新于:2020-03-02 注:代码来自老师授课用样例. 一.初识 urllib 库 在 python2.x 版本,urllib 与urllib2 是两个库,在 python3.x 版本,二者合 ...

  4. python爬虫之urllib库详解

    python爬虫之urllib库详解 前言 一.urllib库是什么? 二.urllib库的使用 urllib.request模块 urllib.parse模块 利用try-except,进行超时处理 ...

  5. 初学爬虫之 urllib 库的介绍与使用(一)

    初学爬虫之 urllib 库的介绍与使用(一) 目录 初学爬虫之 urllib 库的介绍与使用(一) 简介 1.1 urllib.request.urlopen() 1.2 urllib.reques ...

  6. oracle urlencode 中文,Python2和Python3中urllib库中urlencode的使用注意事项

    前言 在Python中,我们通常使用urllib中的urlencode方法将字典编码,用于提交数据给url等操作,但是在Python2和Python3中urllib模块中所提供的urlencode的包 ...

  7. python爬虫网络请求超时_6、web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求...

    利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码 read()读出html源码内容 decode("utf-8")将字节转化成字符 ...

  8. python urllib.request 爬虫 数据处理-Python网络爬虫(基于urllib库的get请求页面)

    一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...

  9. 爬虫使用urllib库报错urllib.error.URLError: 「urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate veri

    学习爬虫时,用urllib库,发现经常报错,查资料解决. 错误原因: 这是一个SSL证书验证错误,当请求一个https站点,但是证书验证错误时,就会报这样的错误. 解决办法: 只需在代码中加入如下两行 ...

最新文章

  1. 一文看懂NB-IoT!
  2. Vivado如何计算关键路径的建立时间裕量?(理论分析篇)
  3. python开发的软件sparrow-黑客常用wifi蓝牙分析攻击工具,让你的设备陷入危险之中...
  4. 26岁,发25篇SCI,当上211教授、博导。
  5. mysql在可视化软件navicat中如何解决中文乱码问题
  6. InceptionNet V4
  7. Linux 光盘 远程拷贝,Linux远程拷贝scp命令
  8. REDO LOG大小引起的Oracle数据库性能下降
  9. mac pycharm 卸载_Mac上Virtual Box虚拟机Linux系统安装
  10. aspose转pdf不显示中文_word转pdf,迫不得已服务器从linux换成了windows,不完美的完美...
  11. linux 嵌入式串口通信,基于linux的嵌入式串口通信综述.doc
  12. spring 全局变量_Spring 十个错误的使用姿势!
  13. python程序设计实验七_Python程序设计实验报告七:组合数据类型
  14. 网络编程(基于udp协议的套接字/socketserver模块/进程简介)
  15. 201507152326_《Javascript实现跨域有4种方法——介绍jsonp和html5方法》
  16. Java项目:Springboot图书馆图书借阅管理系统
  17. 【竖排日语OCR识别】如何识别图片上竖排的日语 ?如何识别图片上横排的日语?如何将竖排日语转横排日语,下面说清楚方法
  18. sk_buff 介绍
  19. android夯实总结(设计、细节及思想)
  20. 曾风靡全球的 Delphi,要日薄西山了?

热门文章

  1. 2022年全球与中国湿钽电容器行业发展趋势及投资战略分析报告
  2. 什么是PUGC、UGC、PGC、OGV、PUGV,了解视频平台运营模式
  3. 电脑主板DEBUG指示灯的提示
  4. 【NVMe2.0b 14-8】Set Features(下篇)
  5. 【NVMe2.0b 9】控制器初始化过程
  6. 英文间隔符占位html,HTML空格占位
  7. 代写硕士论文 计算机 代码,天大、厦大两硕士代写买卖论文被撤销学位
  8. (14)写一个函数,将两个字符串连接
  9. 当前时间距离某个时间的天数计算_Excel如何计算当前距离某一天的时间?,原来是这样的...
  10. 显示iPhone已停用,连接iTunes 时,如何解锁又能保留数据