有这样一段HTML:

希望通过这个XPath提取出Hello:

//div//td[contains(@id, 'foo')]/text()

先导入maven依赖:

net.sourceforge.htmlcleaner

htmlcleaner

2.21

main函数:

package com.my.demo;

import javax.xml.xpath.XPath;

import javax.xml.xpath.XPathConstants;

import javax.xml.xpath.XPathFactory;

import org.htmlcleaner.CleanerProperties;

import org.htmlcleaner.DomSerializer;

import org.htmlcleaner.HtmlCleaner;

import org.htmlcleaner.TagNode;

import org.w3c.dom.Document;

public class HtmlXpathJava {

public static void main(String[] args) {

String sampleHtml = "

String sampleXpath = "//div//td[contains(@id, 'foo')]/text()";

System.out.println(getValueByXpath(sampleXpath, sampleHtml));

}

/**

* Extract value by xPath from HTML.

*/

private static String getValueByXpath(String xPath, String html) {

TagNode tagNode = new HtmlCleaner().clean(html);

String value = null;

try {

Document doc = new DomSerializer(new CleanerProperties()).createDOM(tagNode);

XPath xpath = XPathFactory.newInstance().newXPath();

value = (String) xpath.evaluate(xPath, doc, XPathConstants.STRING);

} catch (Exception e) {

System.out.println("Extract value error. " + e.getMessage());

e.printStackTrace();

}

return value;

}

}

输出:

Hello

参考:

html xpath java_Java根据XPath提取HTML相关推荐

  1. python xpath语法-Python Xpath语法

    一.python数据提取xpath 1.beautifulsoup xpath 正则表达式 2.xpath是一种在XML和HTML文档中查找信息的语言,可用来在XML和HTML中对元素进行遍历 Chr ...

  2. python xpath语法-Python xpath表达式如何实现数据处理

    xpath表达式 1. xpath语法 ? 1 2 3 4 5 6 7 8 9 10 Harry Potter 999 Learning XML 888 1.1 选取节点 XPath 使用路径表达式来 ...

  3. python xpath语法-python xpath 基本用法

    发布时间: pythonercn 8 months, 3 weeks ago 在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也 ...

  4. python中xpath用法_python xpath 基本用法

    发布时间: pythonercn 8 months, 3 weeks ago 在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也 ...

  5. 进一步了解XPath(利用XPath爬取飞哥的博客)【python爬虫入门进阶】(04)

    您好,我是码农飞哥,感谢您阅读本文,欢迎一键三连哦. 本文是爬虫专栏的第四篇,重点介绍lxml库与XPath搭配使用解析网页提取网页内容. 干货满满,建议收藏,系列文章持续更新. 小伙伴们如有问题及需 ...

  6. 【Python XPath】使用XPath返回空值

    使用XPath返回空值 再练习使用XPath来爬取数据时,出现了以下情况,本人由于想要快捷,直接使用浏览器复制,结果返回了空的列表,为了验证,本人去浏览器搜索栏查看 一开始以为是复制错了,就自己写全 ...

  7. 解析html生成xpath,html使用xpath解析xml

    test.xml: Everyday Italian Giada De Laurentiis 2005 30.00 Harry Potter J K. Rowling 2005 29.99 XQuer ...

  8. Jmeter(六)关联之XPath提取器

    如果请求返回的消息为xml或html格式的,可以用XPath提取器来提取需要的数据 以http://www.weather.com.cn/为例: 先新建一个HTTP请求GetCityURL,获取城市天 ...

  9. java node子节点_使用Java的XPath循环遍历节点并提取特定的子节点值

    我从谷歌了解到,使用XPath从XML中提取数据比使用DOM循环更有意义. 目前,我已经使用DOM实现了一个解决方案,但是代码很冗长,感觉不整洁且不可维护,所以我想切换到更清洁的XPath解决方案. ...

最新文章

  1. Hibernate学习(4)- Hibernate对象的生命周期
  2. 又在GitHub上挖到个宝藏:Switch模拟器!
  3. Invalid character escape '\o'.
  4. linux的crontab监控,centos服务器crontab计划任务 监控网站
  5. [YTU]_2575( 交通工具信息)
  6. html如何找寻vue文件,如何预览vue文件
  7. HTML5需要学html4吗,html5和html4的区别是什么
  8. 20211126 为什么转动惯量矩阵是正定的?
  9. 20211108 det(AB)=det(A)det(B)
  10. linux进程中对信号的屏蔽,linux进程中的信号屏蔽
  11. 洛谷 P3469 [POI2008]BLO-Blockade (Tarjan,割点)
  12. IT人回家过年的尴尬
  13. 用上Linux后收集变得山穷水尽
  14. 基于主动学习和克里金插值的空气质量推测
  15. Facebook妥协了,React回归
  16. [转] Sublime Text3 配置 NodeJs 环境
  17. AX2012 学习自动生成编码
  18. TypeError: keys must be str, int, float, bool or None, not tuple,解决 python 中 json 保存不了字典键值为 元组 的问题
  19. 海思3519A上运行yolov3(总览)
  20. Hadoop完全分布安装详细过程--------****--------(ubuntu版本)

热门文章

  1. 70进货卖100利润是多少_3个暴利行业,进货价几十块,售卖几百块
  2. ppt给图片增加高斯模糊_【毕业答辩】PPT美化:如何设计毕业答辩的封面
  3. springboot实体映射到数据库_SpringBoot 操作 ElasticSearch 详解
  4. Oracle函数索引与普通索引
  5. 对应猎豹网校的lua 视频教程 做的学习记录 前三课简单介绍1-3
  6. JS调用模式以及bind()方法
  7. 深入实践Spring Boot2.4.3 节点实体持久化
  8. 【Spark Summit EU 2016】沃森媒体分析系统:从单租户Hadoop到3000租户Spark的架构演进...
  9. LVS学习笔记--DR模式部署
  10. Apache Solr solrconfig.xml 中文说明