python etree xpath_【Python】爬虫之使用etree进行xpath元素定位

操作系统：macOS Mojave

python版本：python3.7

依赖库：requests、etree

关于依赖库的安装，建议使用anaconda+pycharm的组合方式，每个依赖库的安装又会基于其他依赖包的安装，这时候anaconda的作用便是自动帮你下载安装对应的依赖，不需要人工去查找，类似于java maven的三方库管理，python常见IDE就是pycharm了。pycharm怎么关联anaconda的依赖包呢？请看下图设置：

0-0、打开pycharm-preferences，进入设置

0-1、选择anaconda所在的python执行文件

1、网站源代码获取及转换

import requests

from lxml import etree

r=requests.get("http://www.baidu.com")

#print ("状态码：",r.status_code)

#print ("网站源代码",r.text)

#print ("头部请求",r.headers)

html = etree.HTML(r.text) # 调用HTML类进行初始化

etreeResult = etree.tostring(html) # 将其转化为字符串类型，etree类型

strResult=etreeResult.decode(‘utf-8‘) #转化为utf-8编码格式，此时已是str类型

2、节点、属性值、内容的获取

语法如下：

示例代码：

import requests

from lxml import etree

r=requests.get("http://www.baidu.com")

html = etree.HTML(r.text) # 调用HTML类进行初始化

resultAll = html.xpath(‘//*‘) #选取所有节点

#print("获取所有节点：",resultAll)

resultDivAll = html.xpath(‘//div‘) #选取div子孙节点

#print("获取div所有节点：",resultDivAll)

resultDiv_img = html.xpath(‘//div/img‘) #选取div下img节点

#print("获取div节点下img节点：",resultDiv_img)

resultDiv_imgSrc = html.xpath(‘//div/img/@src‘) #获取div_img的src属性值

print("获取div节点下img的src值：",resultDiv_imgSrc)

对应输出的值：

原文：https://www.cnblogs.com/fightccc/p/10808590.html

python etree xpath_【Python】爬虫之使用etree进行xpath元素定位相关推荐

用python的selenium写爬虫通过绝对坐标点击元素
用python的selenium写爬虫通过绝对坐标点击,坐标的获取方法注: 适用于谷歌浏览器浏览器: 其中css选择器为目标区域的css表达式: 网页F12打开源代码,在console窗口输入 # ...
python etree htm参数_python笔记1--lxml.etree解析html
前言 lxml是一种使用Python编写的库,可以迅速.灵活地处理XML和HTML,学过xpath定位的,可以立马上手使用环境: python3.7 lxml 4.3.3 lxml安装 pip in ...
[深度学习]Part1 Python学习进阶Ch23爬虫Spider——【DeepBlue学习笔记】
本文仅供学习使用 Python高级--Ch23爬虫Spider 23. 爬虫Spider 23.1 HTTP基本原理 23.1.1 URI与URL 23.1.2 超文本 23.1.3 HTTP 和 H ...
Python 爬虫找到数据了 re XPath requests Pool
Python 爬虫找到数据了 re & XPath & requests & Pool 2018.06.16 23:18 88浏览字号是的,爬虫就是为了获取数据.在获取的数 ...
python协程池爬虫_Python之协程爬虫小说网协程爬虫案例
在Gevent协程的使用中我们已经学会简单的使用协程,这篇文章我们通过协程爬虫来测试一下具体的效果.Gevent遇到IO阻塞时会自动切换任务: from gevent import monkey mo ...
《作文精编大全》，Python程序员用爬虫制作的
文章目录 ⛳️ 实战场景 ⛳️ 采集列表页 ⛳️ 提取列表作文地址 ⛳️ 提取作文 8 内容 ⛳️ 实战场景本篇博客又是一个 Python 爬虫实战,目标站点时作文吧,一个充满作文的站点 zuowe ...
小白学 Python 爬虫（19）：Xpath 基操
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（20）：Xpath 进阶
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
Python之起点中文网爬虫
Python之起点中文网爬虫注:请勿用于其他用途,仅供学习使用 import requests import re import os from lxml import etreehead = {& ...

python etree xpath_【Python】爬虫之使用etree进行xpath元素定位

python etree xpath_【Python】爬虫之使用etree进行xpath元素定位相关推荐

最新文章

热门文章