1、相关资料

官方文档:http://htmlparser.sourceforge.net/samples.html

API:http://htmlparser.sourceforge.net/javadoc/index.html

其它HTML 解释器:jsoup等。由于HtmlParser自2006年以后就再没更新,目前很多人推荐使用jsoup代替它。

2、使用HtmlPaser的关键步骤

(1)通过Parser类创建一个解释器

(2)创建Filter或者Visitor

(3)使用parser根据filter或者visitor来取得所有符合条件的节点

(4)对节点内容进行处理

3、使用Parser的构造函数创建解释器

Parser() 
          Zero argument constructor.
Parser(Lexer lexer) 
          Construct a parser using the provided lexer.
Parser(Lexer lexer, ParserFeedback fb) 
          Construct a parser using the provided lexer and feedback object.
Parser(String resource) 
          Creates a Parser object with the location of the resource (URL or file).
Parser(String resource, ParserFeedback feedback) 
          Creates a Parser object with the location of the resource (URL or file) You would typically create a DefaultHTMLParserFeedback object and pass it in.
Parser(URLConnection connection) 
          Construct a parser using the provided URLConnection.
Parser(URLConnection connection, ParserFeedback fb) 
          Constructor for custom HTTP access.

对于大多数使用者来说,使用最多的是通过一个 URLConnection 或者一个保存有网页内容的字符串来初始化Parser,或者使用静态函数来生成一个Parser对象。 ParserFeedback 的代码很简单,是针对调试和跟踪分析过程的,一般不需要改变。而使用 Lexer 则是一个相对比较高级的话题,放到以后再讨论吧。
        这里比较有趣的一点是,如果需要设置页面的编码方式的话,不使用Lexer就只有静态函数一个方法了。对于大多数中文页面来说,好像这是应该用得比较多的一个方法。

4、HtmlPaser使用Node对象保存各节点信息

(1)访问各个节点的方法
Node getParent ():取得父节点
NodeList getChildren ():取得子节点的列表
Node getFirstChild ():取得第一个子节点
Node getLastChild ():取得最后一个子节点
Node getPreviousSibling ():取得前一个兄弟(不好意思,英文是兄弟姐妹,直译太麻烦而且不符合习惯,对不起女同胞了)
Node getNextSibling ():取得下一个兄弟节点
(2)取得Node内容的函数
String getText ():取得文本
String toPlainTextString():取得纯文本信息。
String toHtml () :取得HTML信息(原始HTML)
String toHtml (boolean verbatim):取得HTML信息(原始HTML)
String toString ():取得字符串信息(原始HTML)
Page getPage ():取得这个Node对应的Page对象
int getStartPosition ():取得这个Node在HTML页面中的起始位置
int getEndPosition ():取得这个Node在HTML页面中的结束位置

5、使用Filter访问Node节点及其内容

(1)Filter的种类

顾名思义,Filter就是对于结果进行过滤,取得需要的内容。

所有的Filter均实现了NodeFilter接口,此接口只有一个方法Boolean accept(Node node),用于确定某个节点是否属于此Filter过滤的范围。

HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter,也可以分为几类。
判断类Filter:
TagNameFilter
HasAttributeFilter
HasChildFilter
HasParentFilter
HasSiblingFilter
IsEqualFilter
逻辑运算Filter:
AndFilter
NotFilter
OrFilter
XorFilter
其他Filter:
NodeClassFilter
StringFilter
LinkStringFilter
LinkRegexFilter
RegexFilter
CssSelectorNodeFilter

除此以外,可以自定义一些Filter,用于完成特殊需求的过滤。
(2)Filter的使用示例

以下示例用于提取HTML文件中的链接

[java] view plaincopy
  1. package org.ljh.search.html;
  2. import java.util.HashSet;
  3. import java.util.Set;
  4. import org.htmlparser.Node;
  5. import org.htmlparser.NodeFilter;
  6. import org.htmlparser.Parser;
  7. import org.htmlparser.filters.NodeClassFilter;
  8. import org.htmlparser.filters.OrFilter;
  9. import org.htmlparser.tags.LinkTag;
  10. import org.htmlparser.util.NodeList;
  11. import org.htmlparser.util.ParserException;
  12. //本类创建用于HTML文件解释工具
  13. public class HtmlParserTool {
  14. // 本方法用于提取某个html文档中内嵌的链接
  15. public static Set<String> extractLinks(String url, LinkFilter filter) {
  16. Set<String> links = new HashSet<String>();
  17. try {
  18. // 1、构造一个Parser,并设置相关的属性
  19. Parser parser = new Parser(url);
  20. parser.setEncoding("gb2312");
  21. // 2.1、自定义一个Filter,用于过滤<Frame >标签,然后取得标签中的src属性值
  22. NodeFilter frameNodeFilter = new NodeFilter() {
  23. @Override
  24. public boolean accept(Node node) {
  25. if (node.getText().startsWith("frame src=")) {
  26. return true;
  27. } else {
  28. return false;
  29. }
  30. }
  31. };
  32. //2.2、创建第二个Filter,过滤<a>标签
  33. NodeFilter aNodeFilter = new NodeClassFilter(LinkTag.class);
  34. //2.3、净土上述2个Filter形成一个组合逻辑Filter。
  35. OrFilter linkFilter = new OrFilter(frameNodeFilter, aNodeFilter);
  36. //3、使用parser根据filter来取得所有符合条件的节点
  37. NodeList nodeList = parser.extractAllNodesThatMatch(linkFilter);
  38. //4、对取得的Node进行处理
  39. for(int i = 0; i<nodeList.size();i++){
  40. Node node = nodeList.elementAt(i);
  41. String linkURL = "";
  42. //如果链接类型为<a />
  43. if(node instanceof LinkTag){
  44. LinkTag link = (LinkTag)node;
  45. linkURL= link.getLink();
  46. }else{
  47. //如果类型为<frame />
  48. String nodeText = node.getText();
  49. int beginPosition = nodeText.indexOf("src=");
  50. nodeText = nodeText.substring(beginPosition);
  51. int endPosition = nodeText.indexOf(" ");
  52. if(endPosition == -1){
  53. endPosition = nodeText.indexOf(">");
  54. }
  55. linkURL = nodeText.substring(5, endPosition - 1);
  56. }
  57. //判断是否属于本次搜索范围的url
  58. if(filter.accept(linkURL)){
  59. links.add(linkURL);
  60. }
  61. }
  62. } catch (ParserException e) {
  63. e.printStackTrace();
  64. }
  65. return links;
  66. }
  67. }

程序中的一些说明:

(1)通过Node#getText()取得节点的String。

(2)node instanceof TagLink,即<a/>节点,其它还有很多的类似节点,如tableTag等,基本上每个常见的html标签均会对应一个tag。官方文档说明如下:

org.htmlparser.nodes The nodes package has the concrete node implementations.
org.htmlparser.tags The tags package contains specific tags.

因此可以通过此方法直接判断一个节点是否某个标签内容。

其中用到的LinkFilter接口定义如下:

[java] view plaincopy
  1. package org.ljh.search.html;
  2. //本接口所定义的过滤器,用于判断url是否属于本次搜索范围。
  3. public interface LinkFilter {
  4. public boolean accept(String url);
  5. }

测试程序如下:

[java] view plaincopy
  1. package org.ljh.search.html;
  2. import java.util.Iterator;
  3. import java.util.Set;
  4. import org.junit.Test;
  5. public class HtmlParserToolTest {
  6. @Test
  7. public void testExtractLinks() {
  8. String url = "http://www.baidu.com";
  9. LinkFilter linkFilter = new LinkFilter(){
  10. @Override
  11. public boolean accept(String url) {
  12. if(url.contains("baidu")){
  13. return true;
  14. }else{
  15. return false;
  16. }
  17. }
  18. };
  19. Set<String> urlSet = HtmlParserTool.extractLinks(url, linkFilter);
  20. Iterator<String> it = urlSet.iterator();
  21. while(it.hasNext()){
  22. System.out.println(it.next());
  23. }
  24. }
  25. }

输出结果如下:

http://www.hao123.com
http://www.baidu.com/
http://www.baidu.com/duty/
http://v.baidu.com/v?ct=301989888&rn=20&pn=0&db=0&s=25&word=
http://music.baidu.com
http://ir.baidu.com
http://www.baidu.com/gaoji/preferences.html
http://news.baidu.com
http://map.baidu.com
http://music.baidu.com/search?fr=ps&key=
http://image.baidu.com
http://zhidao.baidu.com
http://image.baidu.com/i?tn=baiduimage&ct=201326592&lm=-1&cl=2&nc=1&word=
http://www.baidu.com/more/
http://shouji.baidu.com/baidusearch/mobisearch.html?ref=pcjg&from=1000139w
http://wenku.baidu.com
http://news.baidu.com/ns?cl=2&rn=20&tn=news&word=
https://passport.baidu.com/v2/?login&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F
http://www.baidu.com/cache/sethelp/index.html
http://zhidao.baidu.com/q?ct=17&pn=0&tn=ikaslist&rn=10&word=&fr=wwwt
http://tieba.baidu.com/f?kw=&fr=wwwt
http://home.baidu.com
https://passport.baidu.com/v2/?reg&regType=1&tpl=mn&u=http%3A%2F%2Fwww.baidu.com%2F
http://v.baidu.com
http://e.baidu.com/?refer=888
;
http://tieba.baidu.com
http://baike.baidu.com
http://wenku.baidu.com/search?word=&lm=0&od=0
http://top.baidu.com
http://map.baidu.com/m?word=&fr=ps01000

HtmlParser基础教程相关推荐

  1. Spring Cloud Alibaba基础教程:使用Nacos实现服务注册与发现

    自Spring Cloud Alibaba发布第一个Release以来,就备受国内开发者的高度关注.虽然Spring Cloud Alibaba还没能纳入Spring Cloud的主版本管理中,但是凭 ...

  2. [SQL基础教程] 1-5 表的删除和更新

    [SQL基础教程] 1-5 表的删除和更新 表的删除 语法 DROP TABLE <表名>; 法则 1-12 删除的表无法恢复 表定义的更新 语法 ALTER TABLE<表名> ...

  3. python 包用法_Python 基础教程之包和类的用法

    Python 基础教程之包和类的用法 这篇文章主要介绍了 Python 基础教程之包和类的用法的相关资料, 需要的朋友可以参考下 Python 是一种面向对象.解释型计算机程序设计语言,由 Guido ...

  4. Spring Cloud Alibaba 基础教程:Nacos 生产级版本 0.8.0

    Spring Cloud Alibaba 基础教程:Nacos 生产级版本 0.8.0 昨晚Nacos社区发布了第一个生产级版本:0.8.0.由于该版本除了Bug修复之外,还提供了几个生产管理非常重要 ...

  5. Python培训基础教程都教哪些

    根据相关数据统计,目前学习Python技术的同学大多数是零基础,都是从其他行业转型来学习的,那么Python培训基础教程都教哪些呢?好不好学呢?来看看下面的详细介绍. Python培训基础教程都教哪些 ...

  6. 深度学习之Pytorch基础教程!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:李祖贤,Datawhale高校群成员,深圳大学 随着深度学习的发展 ...

  7. python平稳性检验_时间序列预测基础教程系列(14)_如何判断时间序列数据是否是平稳的(Python)...

    时间序列预测基础教程系列(14)_如何判断时间序列数据是否是平稳的(Python) 发布时间:2019-01-10 00:02, 浏览次数:620 , 标签: Python 导读: 本文介绍了数据平稳 ...

  8. %3c- r语言运算符,R语言基础教程之运算符

    原标题:R语言基础教程之运算符 运算符类型 在R编程中有以下类型的运算符 - 算术运算符 关系运算符 逻辑运算符 赋值运算符 其他运算符1.算术运算符 下表显示了R语言支持的算术运算符.运算符对向量的 ...

  9. python分类器鸢尾花怎么写_python机器学习基础教程-鸢尾花分类

    一: 环境准备: 1.导入的库: importnumpy as npimportmatplotlib.pyplot as pltimportpandas as pdimport mglearn 2.导 ...

最新文章

  1. php使用redis的GEO地理信息类型
  2. 效果很好的asp.net的数据库访问模型(优化,封装一体化)
  3. 改变mysql数据库用户的权限
  4. 5G UE — 手机的基带芯片
  5. 设计模式之职责链模式永不罢休(二十一)
  6. 无线研究 破解分享
  7. 6.5 不同类型的数据集
  8. 其它综合-VMware虚拟机安装Ubuntu 19.04 版本
  9. 关于 NIO 你不得不知道的一些“地雷”
  10. linux--GCC简单用法
  11. 如何自学python知乎-学习Python价格多少?如何学习好?老男孩IT教育
  12. 2021-06-22文本样式
  13. 计算机组成原理第6版课后答案,计算机组成原理第6章习题参考答案
  14. 如何将pdf中的矢量图另存为图片
  15. 联想微型计算机安装Win7,联想一体机如何安装win7_联想一体机怎么使用u盘重装win7...
  16. 强强联合丨谱尼测试与北大医疗鲁中医院开启战略合作新征程
  17. 百度2017春招笔试真题编程题集合 [编程题]买帽子
  18. 立创商城PCB库使用说明
  19. Android学习记录
  20. 冯诺依曼 计算机名言,约翰.冯.诺依曼名言

热门文章

  1. 为什么消息队列不实现精准一次(exactly once)?
  2. Web前端开发笔记——第二章 HTML语言 第六节 区域标签、列表标签
  3. unlegal android,百度地图定位 Cordova 插件 cordova-plugin-baidumaplocation
  4. 银行应用_讲解人脸识别在银行的应用
  5. 2 自动递增_有石CAD自动下单,1天工作量1小时完成
  6. shell脚本详解(六)——数组简介和排序算法
  7. 三层聚合实验的注意事项
  8. VRRP协议简介与实例配置
  9. java 桥梁模设计,Java设计模式学习篇(九)桥接设计模式
  10. catia圆管焊接焊接_CATIA焊接教程.ppt