操作系统:macOS Mojave

python版本:python3.7

依赖库:requests、etree

关于依赖库的安装,建议使用anaconda+pycharm的组合方式,每个依赖库的安装又会基于其他依赖包的安装,这时候anaconda的作用便是自动帮你下载安装对应的依赖,不需要人工去查找,类似于java maven的三方库管理,python常见IDE就是pycharm了。pycharm怎么关联anaconda的依赖包呢?请看下图设置:

0-0、打开pycharm-preferences,进入设置

0-1、选择anaconda所在的python执行文件

1、网站源代码获取及转换

import requests

from lxml import etree

r=requests.get("http://www.baidu.com")

#print ("状态码:",r.status_code)

#print ("网站源代码",r.text)

#print ("头部请求",r.headers)

html = etree.HTML(r.text) # 调用HTML类进行初始化

etreeResult = etree.tostring(html) # 将其转化为字符串类型,etree类型

strResult=etreeResult.decode(‘utf-8‘) #转化为utf-8编码格式,此时已是str类型

2、节点、属性值、内容的获取

语法如下:

示例代码:

import requests

from lxml import etree

r=requests.get("http://www.baidu.com")

html = etree.HTML(r.text) # 调用HTML类进行初始化

resultAll = html.xpath(‘//*‘) #选取所有节点

#print("获取所有节点:",resultAll)

resultDivAll = html.xpath(‘//div‘) #选取div子孙节点

#print("获取div所有节点:",resultDivAll)

resultDiv_img = html.xpath(‘//div/img‘) #选取div下img节点

#print("获取div节点下img节点:",resultDiv_img)

resultDiv_imgSrc = html.xpath(‘//div/img/@src‘) #获取div_img的src属性值

print("获取div节点下img的src值:",resultDiv_imgSrc)

对应输出的值:

原文:https://www.cnblogs.com/fightccc/p/10808590.html

python etree xpath_【Python】爬虫之使用etree进行xpath元素定位相关推荐

  1. 用python的selenium写爬虫通过绝对坐标点击元素

    用python的selenium写爬虫通过绝对坐标点击,坐标的获取方法 注: 适用于谷歌浏览器浏览器: 其中css选择器为目标区域的css表达式: 网页F12打开源代码,在console窗口输入 # ...

  2. python etree htm参数_python笔记1--lxml.etree解析html

    前言 lxml是一种使用Python编写的库,可以迅速.灵活地处理XML和HTML,学过xpath定位的,可以立马上手 使用环境: python3.7 lxml 4.3.3 lxml安装 pip in ...

  3. [深度学习]Part1 Python学习进阶Ch23爬虫Spider——【DeepBlue学习笔记】

    本文仅供学习使用 Python高级--Ch23爬虫Spider 23. 爬虫Spider 23.1 HTTP基本原理 23.1.1 URI与URL 23.1.2 超文本 23.1.3 HTTP 和 H ...

  4. Python 爬虫找到数据了 re XPath requests Pool

    Python 爬虫找到数据了 re & XPath & requests & Pool 2018.06.16 23:18 88浏览 字号 是的,爬虫就是为了获取数据.在获取的数 ...

  5. python协程池爬虫_Python之协程爬虫 小说网协程爬虫案例

    在Gevent协程的使用中我们已经学会简单的使用协程,这篇文章我们通过协程爬虫来测试一下具体的效果.Gevent遇到IO阻塞时会自动切换任务: from gevent import monkey mo ...

  6. 《作文精编大全》,Python程序员用爬虫制作的

    文章目录 ⛳️ 实战场景 ⛳️ 采集列表页 ⛳️ 提取列表作文地址 ⛳️ 提取作文 8 内容 ⛳️ 实战场景 本篇博客又是一个 Python 爬虫实战,目标站点时作文吧,一个充满作文的站点 zuowe ...

  7. 小白学 Python 爬虫(19):Xpath 基操

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  8. 小白学 Python 爬虫(20):Xpath 进阶

    人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...

  9. Python之起点中文网爬虫

    Python之起点中文网爬虫 注:请勿用于其他用途,仅供学习使用 import requests import re import os from lxml import etreehead = {& ...

最新文章

  1. 设置默认settings文件_Django 学习笔记系列 之 settings.py 设定
  2. ORACLE 数据迁移
  3. Java Web 高性能开发,前端的高性能
  4. shell文本处理工具grep
  5. Qt的安装和使用中的常见问题(详细版)
  6. 20万+奖金池,“智在飞翔”2021 • 无人飞行器智能感知大赛,战火重燃 • 等你来战!!...
  7. BZOJ.2000.[HNOI2010]stone取石头游戏(博弈)
  8. Cuda:invalid device pointer
  9. Linux学习笔记(单用户模式,救援模式,克隆主机,两个linux互相连接)
  10. 用postGIS向postgresql插入空间数据
  11. 秒杀场景下MySQL的低效原因和改进
  12. 自然伽马测井基础知识
  13. 2010年通信工程概预算培训讲义
  14. 批处理之for /r
  15. linux aria2 使用教程,Aria2使用详细教程
  16. 旅行商问题的离散布谷鸟搜索算法
  17. CentOS7和Ubuntu18.10下运行Qt Creator出现cannot find -lGL的问题的解决方案
  18. python实验过程中遇到的问题以及解决办法_20183413 2029-2020-2《Python程序设计》实验一报告...
  19. mybatis-sqlserver批量新增返回id
  20. 报错“/sbin/ldconfig.real: /usr/lib/x86_64-linux-gnu/libopencv_video.so.3.2 is not a symbolic link“

热门文章

  1. matlab 小波启发式阈值滤波,小波阈值去噪
  2. java苹果沙盒验证参数问题_php – iOS7 – 收据未在沙盒验证 – 错误21002(java.lang.IllegalArgumentException)...
  3. mariadb不支持load data_不修改代码打包python机器学习工程
  4. 2018.12.2 频谱分析
  5. nginx网关--openresty
  6. 06-JavaScript的流控制语句
  7. Git学习系列之Debian或Ubuntu上安装Git详细步骤(图文详解)
  8. Skype for Business Server 2015-12-WAP-发布-1-前端服务器-OWAS01
  9. validate参数校验和数据回显
  10. apache2.4.7 make报错[exports.lo] Error 1 解决方法