web爬虫讲解—urllib库中使用xpath表达式—BeautifulSoup基础
在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块,然后将网页数据通过lxml下的etree转化为treedata的形式
urllib库中使用xpath表达式
etree.HTML()将获取到的html字符串,转换成树形结构,也就是xpath表达式可以获取的格式
#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib.request
from lxml import etree #导入html树形结构转换模块wye = urllib.request.urlopen('http://sh.qihoo.com/pc/home').read().decode("utf-8",'ignore')
zhuanh = etree.HTML(wye) #将获取到的html字符串,转换成树形结构,也就是xpath表达式可以获取的格式
print(zhuanh)
hqq = zhuanh.xpath('/html/head/title/text()') #通过xpath表达式获取标题#注意,xpath表达式获取到数据,有时候是列表,有时候不是列表所以要做如下处理
if str(type(hqq)) == "<class 'list'>": #判断获取到的是否是列表print(hqq)
else:xh_hqq = [i for i in hqq] #如果不是列表,循环数据组合成列表print(xh_hqq)#返回 :['【今日爆点】你的专属资讯平台']
BeautifulSoup基础
BeautifulSoup是获取thml元素的模块
BeautifulSoup-3.2.1版本
如果你依然在编程的世界里迷茫,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的。交流经验。从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地
web爬虫讲解—urllib库中使用xpath表达式—BeautifulSoup基础相关推荐
- python3 urlencode_Python2和Python3中urllib库中urlencode的使用注意事项
前言 在Python中,我们通常使用urllib中的urlencode方法将字典编码,用于提交数据给url等操作,但是在Python2和Python3中urllib模块中所提供的urlencode的包 ...
- Python 爬虫之urllib库的使用
urllib库 urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据. urlopen函数: 在Python3的urlli ...
- python urllib.request 爬虫 数据处理-python 爬虫之 urllib库
文章更新于:2020-03-02 注:代码来自老师授课用样例. 一.初识 urllib 库 在 python2.x 版本,urllib 与urllib2 是两个库,在 python3.x 版本,二者合 ...
- python爬虫之urllib库详解
python爬虫之urllib库详解 前言 一.urllib库是什么? 二.urllib库的使用 urllib.request模块 urllib.parse模块 利用try-except,进行超时处理 ...
- 初学爬虫之 urllib 库的介绍与使用(一)
初学爬虫之 urllib 库的介绍与使用(一) 目录 初学爬虫之 urllib 库的介绍与使用(一) 简介 1.1 urllib.request.urlopen() 1.2 urllib.reques ...
- oracle urlencode 中文,Python2和Python3中urllib库中urlencode的使用注意事项
前言 在Python中,我们通常使用urllib中的urlencode方法将字典编码,用于提交数据给url等操作,但是在Python2和Python3中urllib模块中所提供的urlencode的包 ...
- python爬虫网络请求超时_6、web爬虫讲解2—urllib库爬虫—基础使用—超时设置—自动模拟http请求...
利用python系统自带的urllib库写简单爬虫 urlopen()获取一个URL的html源码 read()读出html源码内容 decode("utf-8")将字节转化成字符 ...
- python urllib.request 爬虫 数据处理-Python网络爬虫(基于urllib库的get请求页面)
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
- 爬虫使用urllib库报错urllib.error.URLError: 「urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate veri
学习爬虫时,用urllib库,发现经常报错,查资料解决. 错误原因: 这是一个SSL证书验证错误,当请求一个https站点,但是证书验证错误时,就会报这样的错误. 解决办法: 只需在代码中加入如下两行 ...
最新文章
- 一文看懂NB-IoT!
- Vivado如何计算关键路径的建立时间裕量?(理论分析篇)
- python开发的软件sparrow-黑客常用wifi蓝牙分析攻击工具,让你的设备陷入危险之中...
- 26岁,发25篇SCI,当上211教授、博导。
- mysql在可视化软件navicat中如何解决中文乱码问题
- InceptionNet V4
- Linux 光盘 远程拷贝,Linux远程拷贝scp命令
- REDO LOG大小引起的Oracle数据库性能下降
- mac pycharm 卸载_Mac上Virtual Box虚拟机Linux系统安装
- aspose转pdf不显示中文_word转pdf,迫不得已服务器从linux换成了windows,不完美的完美...
- linux 嵌入式串口通信,基于linux的嵌入式串口通信综述.doc
- spring 全局变量_Spring 十个错误的使用姿势!
- python程序设计实验七_Python程序设计实验报告七:组合数据类型
- 网络编程(基于udp协议的套接字/socketserver模块/进程简介)
- 201507152326_《Javascript实现跨域有4种方法——介绍jsonp和html5方法》
- Java项目:Springboot图书馆图书借阅管理系统
- 【竖排日语OCR识别】如何识别图片上竖排的日语 ?如何识别图片上横排的日语?如何将竖排日语转横排日语,下面说清楚方法
- sk_buff 介绍
- android夯实总结(设计、细节及思想)
- 曾风靡全球的 Delphi,要日薄西山了?
热门文章
- 2022年全球与中国湿钽电容器行业发展趋势及投资战略分析报告
- 什么是PUGC、UGC、PGC、OGV、PUGV,了解视频平台运营模式
- 电脑主板DEBUG指示灯的提示
- 【NVMe2.0b 14-8】Set Features(下篇)
- 【NVMe2.0b 9】控制器初始化过程
- 英文间隔符占位html,HTML空格占位
- 代写硕士论文 计算机 代码,天大、厦大两硕士代写买卖论文被撤销学位
- (14)写一个函数,将两个字符串连接
- 当前时间距离某个时间的天数计算_Excel如何计算当前距离某一天的时间?,原来是这样的...
- 显示iPhone已停用,连接iTunes 时,如何解锁又能保留数据