html xpath java_Java根据XPath提取HTML
有这样一段HTML:
希望通过这个XPath提取出Hello:
//div//td[contains(@id, 'foo')]/text()
先导入maven依赖:
net.sourceforge.htmlcleaner
htmlcleaner
2.21
main函数:
package com.my.demo;
import javax.xml.xpath.XPath;
import javax.xml.xpath.XPathConstants;
import javax.xml.xpath.XPathFactory;
import org.htmlcleaner.CleanerProperties;
import org.htmlcleaner.DomSerializer;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
import org.w3c.dom.Document;
public class HtmlXpathJava {
public static void main(String[] args) {
String sampleHtml = "
String sampleXpath = "//div//td[contains(@id, 'foo')]/text()";
System.out.println(getValueByXpath(sampleXpath, sampleHtml));
}
/**
* Extract value by xPath from HTML.
*/
private static String getValueByXpath(String xPath, String html) {
TagNode tagNode = new HtmlCleaner().clean(html);
String value = null;
try {
Document doc = new DomSerializer(new CleanerProperties()).createDOM(tagNode);
XPath xpath = XPathFactory.newInstance().newXPath();
value = (String) xpath.evaluate(xPath, doc, XPathConstants.STRING);
} catch (Exception e) {
System.out.println("Extract value error. " + e.getMessage());
e.printStackTrace();
}
return value;
}
}
输出:
Hello
参考:
html xpath java_Java根据XPath提取HTML相关推荐
- python xpath语法-Python Xpath语法
一.python数据提取xpath 1.beautifulsoup xpath 正则表达式 2.xpath是一种在XML和HTML文档中查找信息的语言,可用来在XML和HTML中对元素进行遍历 Chr ...
- python xpath语法-Python xpath表达式如何实现数据处理
xpath表达式 1. xpath语法 ? 1 2 3 4 5 6 7 8 9 10 Harry Potter 999 Learning XML 888 1.1 选取节点 XPath 使用路径表达式来 ...
- python xpath语法-python xpath 基本用法
发布时间: pythonercn 8 months, 3 weeks ago 在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也 ...
- python中xpath用法_python xpath 基本用法
发布时间: pythonercn 8 months, 3 weeks ago 在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也 ...
- 进一步了解XPath(利用XPath爬取飞哥的博客)【python爬虫入门进阶】(04)
您好,我是码农飞哥,感谢您阅读本文,欢迎一键三连哦. 本文是爬虫专栏的第四篇,重点介绍lxml库与XPath搭配使用解析网页提取网页内容. 干货满满,建议收藏,系列文章持续更新. 小伙伴们如有问题及需 ...
- 【Python XPath】使用XPath返回空值
使用XPath返回空值 再练习使用XPath来爬取数据时,出现了以下情况,本人由于想要快捷,直接使用浏览器复制,结果返回了空的列表,为了验证,本人去浏览器搜索栏查看 一开始以为是复制错了,就自己写全 ...
- 解析html生成xpath,html使用xpath解析xml
test.xml: Everyday Italian Giada De Laurentiis 2005 30.00 Harry Potter J K. Rowling 2005 29.99 XQuer ...
- Jmeter(六)关联之XPath提取器
如果请求返回的消息为xml或html格式的,可以用XPath提取器来提取需要的数据 以http://www.weather.com.cn/为例: 先新建一个HTTP请求GetCityURL,获取城市天 ...
- java node子节点_使用Java的XPath循环遍历节点并提取特定的子节点值
我从谷歌了解到,使用XPath从XML中提取数据比使用DOM循环更有意义. 目前,我已经使用DOM实现了一个解决方案,但是代码很冗长,感觉不整洁且不可维护,所以我想切换到更清洁的XPath解决方案. ...
最新文章
- Hibernate学习(4)- Hibernate对象的生命周期
- 又在GitHub上挖到个宝藏:Switch模拟器!
- Invalid character escape '\o'.
- linux的crontab监控,centos服务器crontab计划任务 监控网站
- [YTU]_2575( 交通工具信息)
- html如何找寻vue文件,如何预览vue文件
- HTML5需要学html4吗,html5和html4的区别是什么
- 20211126 为什么转动惯量矩阵是正定的?
- 20211108 det(AB)=det(A)det(B)
- linux进程中对信号的屏蔽,linux进程中的信号屏蔽
- 洛谷 P3469 [POI2008]BLO-Blockade (Tarjan,割点)
- IT人回家过年的尴尬
- 用上Linux后收集变得山穷水尽
- 基于主动学习和克里金插值的空气质量推测
- Facebook妥协了,React回归
- [转] Sublime Text3 配置 NodeJs 环境
- AX2012 学习自动生成编码
- TypeError: keys must be str, int, float, bool or None, not tuple,解决 python 中 json 保存不了字典键值为 元组 的问题
- 海思3519A上运行yolov3(总览)
- Hadoop完全分布安装详细过程--------****--------(ubuntu版本)
热门文章
- 70进货卖100利润是多少_3个暴利行业,进货价几十块,售卖几百块
- ppt给图片增加高斯模糊_【毕业答辩】PPT美化:如何设计毕业答辩的封面
- springboot实体映射到数据库_SpringBoot 操作 ElasticSearch 详解
- Oracle函数索引与普通索引
- 对应猎豹网校的lua 视频教程 做的学习记录 前三课简单介绍1-3
- JS调用模式以及bind()方法
- 深入实践Spring Boot2.4.3 节点实体持久化
- 【Spark Summit EU 2016】沃森媒体分析系统:从单租户Hadoop到3000租户Spark的架构演进...
- LVS学习笔记--DR模式部署
- Apache Solr solrconfig.xml 中文说明