python etree xpath_【Python】爬虫之使用etree进行xpath元素定位
操作系统:macOS Mojave
python版本:python3.7
依赖库:requests、etree
关于依赖库的安装,建议使用anaconda+pycharm的组合方式,每个依赖库的安装又会基于其他依赖包的安装,这时候anaconda的作用便是自动帮你下载安装对应的依赖,不需要人工去查找,类似于java maven的三方库管理,python常见IDE就是pycharm了。pycharm怎么关联anaconda的依赖包呢?请看下图设置:
0-0、打开pycharm-preferences,进入设置
0-1、选择anaconda所在的python执行文件
1、网站源代码获取及转换
import requests
from lxml import etree
r=requests.get("http://www.baidu.com")
#print ("状态码:",r.status_code)
#print ("网站源代码",r.text)
#print ("头部请求",r.headers)
html = etree.HTML(r.text) # 调用HTML类进行初始化
etreeResult = etree.tostring(html) # 将其转化为字符串类型,etree类型
strResult=etreeResult.decode(‘utf-8‘) #转化为utf-8编码格式,此时已是str类型
2、节点、属性值、内容的获取
语法如下:
示例代码:
import requests
from lxml import etree
r=requests.get("http://www.baidu.com")
html = etree.HTML(r.text) # 调用HTML类进行初始化
resultAll = html.xpath(‘//*‘) #选取所有节点
#print("获取所有节点:",resultAll)
resultDivAll = html.xpath(‘//div‘) #选取div子孙节点
#print("获取div所有节点:",resultDivAll)
resultDiv_img = html.xpath(‘//div/img‘) #选取div下img节点
#print("获取div节点下img节点:",resultDiv_img)
resultDiv_imgSrc = html.xpath(‘//div/img/@src‘) #获取div_img的src属性值
print("获取div节点下img的src值:",resultDiv_imgSrc)
对应输出的值:
原文:https://www.cnblogs.com/fightccc/p/10808590.html
python etree xpath_【Python】爬虫之使用etree进行xpath元素定位相关推荐
- 用python的selenium写爬虫通过绝对坐标点击元素
用python的selenium写爬虫通过绝对坐标点击,坐标的获取方法 注: 适用于谷歌浏览器浏览器: 其中css选择器为目标区域的css表达式: 网页F12打开源代码,在console窗口输入 # ...
- python etree htm参数_python笔记1--lxml.etree解析html
前言 lxml是一种使用Python编写的库,可以迅速.灵活地处理XML和HTML,学过xpath定位的,可以立马上手 使用环境: python3.7 lxml 4.3.3 lxml安装 pip in ...
- [深度学习]Part1 Python学习进阶Ch23爬虫Spider——【DeepBlue学习笔记】
本文仅供学习使用 Python高级--Ch23爬虫Spider 23. 爬虫Spider 23.1 HTTP基本原理 23.1.1 URI与URL 23.1.2 超文本 23.1.3 HTTP 和 H ...
- Python 爬虫找到数据了 re XPath requests Pool
Python 爬虫找到数据了 re & XPath & requests & Pool 2018.06.16 23:18 88浏览 字号 是的,爬虫就是为了获取数据.在获取的数 ...
- python协程池爬虫_Python之协程爬虫 小说网协程爬虫案例
在Gevent协程的使用中我们已经学会简单的使用协程,这篇文章我们通过协程爬虫来测试一下具体的效果.Gevent遇到IO阻塞时会自动切换任务: from gevent import monkey mo ...
- 《作文精编大全》,Python程序员用爬虫制作的
文章目录 ⛳️ 实战场景 ⛳️ 采集列表页 ⛳️ 提取列表作文地址 ⛳️ 提取作文 8 内容 ⛳️ 实战场景 本篇博客又是一个 Python 爬虫实战,目标站点时作文吧,一个充满作文的站点 zuowe ...
- 小白学 Python 爬虫(19):Xpath 基操
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- 小白学 Python 爬虫(20):Xpath 进阶
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇 小白学 Python 爬虫(2):前置准备(一)基本类库的安装 小白学 Python 爬虫(3):前置准备(二)Li ...
- Python之起点中文网爬虫
Python之起点中文网爬虫 注:请勿用于其他用途,仅供学习使用 import requests import re import os from lxml import etreehead = {& ...
最新文章
- 设置默认settings文件_Django 学习笔记系列 之 settings.py 设定
- ORACLE 数据迁移
- Java Web 高性能开发,前端的高性能
- shell文本处理工具grep
- Qt的安装和使用中的常见问题(详细版)
- 20万+奖金池,“智在飞翔”2021 • 无人飞行器智能感知大赛,战火重燃 • 等你来战!!...
- BZOJ.2000.[HNOI2010]stone取石头游戏(博弈)
- Cuda:invalid device pointer
- Linux学习笔记(单用户模式,救援模式,克隆主机,两个linux互相连接)
- 用postGIS向postgresql插入空间数据
- 秒杀场景下MySQL的低效原因和改进
- 自然伽马测井基础知识
- 2010年通信工程概预算培训讲义
- 批处理之for /r
- linux aria2 使用教程,Aria2使用详细教程
- 旅行商问题的离散布谷鸟搜索算法
- CentOS7和Ubuntu18.10下运行Qt Creator出现cannot find -lGL的问题的解决方案
- python实验过程中遇到的问题以及解决办法_20183413 2029-2020-2《Python程序设计》实验一报告...
- mybatis-sqlserver批量新增返回id
- 报错“/sbin/ldconfig.real: /usr/lib/x86_64-linux-gnu/libopencv_video.so.3.2 is not a symbolic link“
热门文章
- matlab 小波启发式阈值滤波,小波阈值去噪
- java苹果沙盒验证参数问题_php – iOS7 – 收据未在沙盒验证 – 错误21002(java.lang.IllegalArgumentException)...
- mariadb不支持load data_不修改代码打包python机器学习工程
- 2018.12.2 频谱分析
- nginx网关--openresty
- 06-JavaScript的流控制语句
- Git学习系列之Debian或Ubuntu上安装Git详细步骤(图文详解)
- Skype for Business Server 2015-12-WAP-发布-1-前端服务器-OWAS01
- validate参数校验和数据回显
- apache2.4.7 make报错[exports.lo] Error 1 解决方法