本文概述

为了提取HTML文件的内容, Tika使用了HtmlParser。 HtmlParser是一个类, 用于提取HTML文件的内容和元数据。此类位于org.apache.tika.parser.html包中。它包含下表中列出的构造函数和方法。

正确的HtmlParser构造函数

Constructor

Description

公共HtmlParser()

它用于创建类的实例。

公共HtmlParser(EncodingDetector encodingDetector)

它通过获取EncodingDetector类的实例来创建HtmlParser类的实例。

Tika HtmlParser方法

Method

Description

公共Set getSupportedTypes(ParseContext上下文)

当与给定的解析上下文一起使用时, 它返回此解析器支持的媒体类型集。

公共无效解析(InputStream流, ContentHandler处理程序, 元数据元数据, ParseContext上下文)引发IOException, SAXException, TikaException

它将文档流解析为一系列XHTML SAX事件。

受保护的字符串mapSafeElement(字符串名称)

它用于将安全HTML元素名称映射到语义XHTML等效项。

受保护的布尔值isDiscardElement(String name)

它检查是否应放弃给定HTML元素内的所有内容, 而不是将其包括在解析输出中。

公共String mapSafeAttribute(String elementName, String attributeName)

它使用HtmlMapper机制来自定义HTML映射。

@Field public void setExtractScripts(boolean extractScripts)

它确定是否提取脚本实体中的内容。

公共布尔getExtractScripts()

它用于获取提取的脚本。

Tika HTML文件提取示例

在此示例中, 我们正在提取HTML文件的内容和元数据。参见示例。

package tikaexample;

import java.io.IOException;

import java.io.InputStream;

import org.apache.tika.exception.TikaException;

import org.apache.tika.metadata.Metadata;

import org.apache.tika.parser.ParseContext;

import org.apache.tika.parser.html.HtmlParser;

import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class HtmlParse {

public static void main(final String[] args) throws IOException, SAXException, TikaException {

BodyContentHandler handler = new BodyContentHandler();

HtmlParser parser = new HtmlParser();

Metadata metadata = new Metadata();

ParseContext pcontext = new ParseContext();

try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("index.html")) {

parser.parse(stream, handler, metadata, pcontext);

}

System.out.println("Document Content:" + handler.toString());

System.out.println("Document Metadata:");

String[] metadatas = metadata.names();

for(String meta : metadatas) {

System.out.println(meta + ": " + metadata.get(meta));

}

}

}

输出

Document Content:

Hello, Welcome to srcmini.

Document Metadata:

dc:title: Index Page

Content-Encoding: ISO-8859-1

title: Index Page

Content-Type: text/html; charset=ISO-8859-1

tika 解析html table,Tika HTML文件提取示例相关推荐

  1. tika 解析html table,TIKA提取HTML文档

    全屏 下面给出的是该程序用于从HTML文档提取内容和元数据.import java.io.File; import java.io.FileInputStream; import java.io.IO ...

  2. java tika 解析pdf,Tika提取PDF文件用法示例

    本文概述 为了从pdf文件中提取内容, Tika使用PDFParser. PDFParser是用于从pdf文件提取内容和元数据的类.此类位于org.apache.tika.parser.pdf包中. ...

  3. Tika解析rar文件

    在做的项目中使用到了一些解析的功能,其中便使用到了tika,我对其原理也是一知半解,只会使用代码 但由于文件中含有rar文件,使用tika并不能解析出其中的内容,为了解决这个问题,我想到了一些思路: ...

  4. python读取xml标注坐标_遍历文件 创建XML对象 方法 python解析XML文件 提取坐标计存入文件...

    XML文件??? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. 里面的标签都是可以随心所欲的按照他的命名规则来定义的,文件名为roi.xm ...

  5. [299]python实现批量解析PDF文件提取内容并写入到Excel中

    摘要:最近需要将一批PDF文件中的某些数据整理到Excel中,因为文件数量接近20w+,手动更新几乎不现实,于是就提取关键词和内容动手写了个Python小工具,以实现自动完成上述目标. 要求: 读取P ...

  6. 【人脸识别】解析MS-Celeb-1M人脸数据集及FaceImageCroppedWithAlignment.tsv文件提取

    更多内容关注微信公众号:ML_Study 1,MS-Celeb-1M数据集:  MSR IRC是目前世界上规模最大.水平最高的图像识别赛事之一,由MSRA(微软亚洲研究院)图像分析.大数据挖掘研究组组 ...

  7. java jsoup解析_3使用Jsoup解析Java中HTML文件的示例

    java jsoup解析 HTML是Web的核心,无论您是通过JavaScript,JSP,PHP,ASP或任何其他Web技术动态生成的,您在Internet上看到的所有页面都是基于HTML的. 您的 ...

  8. 3使用Jsoup解析Java中HTML文件的示例

    HTML是Web的核心,无论您是通过JavaScript,JSP,PHP,ASP还是任何其他Web技术动态生成的,您在Internet上看到的所有页面都是基于HTML的. 您的浏览器实际上是解析HTM ...

  9. 目标检测xml文件提取

    提取xml文件的目标名,xmin,ymin,xmax,ymax,在图上把框框出来并保存. 使用try except避免xml文件中可能存在的标注错误. xml文件提取: 使用xml.dom.minid ...

最新文章

  1. android笔记1——开发环境的搭建
  2. 关于loadtxt编码问题的解决方法
  3. Ubuntu14.04LTS下安装tensorflow(Anaconda3+pycharm+tensorflow+CPU)
  4. kafka实战最佳经验,【源码分析设计模式 10
  5. 基于动态代码生成技术的动态对象工厂
  6. 【matlab代码】生成特定频率的正弦信号,X轴以时间表示
  7. wps两列数据分别作为xy轴_0.4 秒,完成两列数据核对
  8. 一个简单的方式搞定密码的加盐哈希与验证
  9. (亲测)vue-cli项目添加骨架屏多种方式,自动生成骨架屏
  10. 浅谈中国市场带来的问题
  11. ubuntu 14.04 将窗体button移到右边
  12. 嵌入式linux appace,嵌入式Linux攻略 ACE程序移植过程详细解析 — IT技术
  13. sql语句区分大小写吗?
  14. (自学笔记) 谭浩强 C语言程序设计 第五版 第一章:程序设计和c语言
  15. mpass小程序开发总结
  16. 如何查看java安装路径
  17. 入驻商家卖违禁药物、评论造假、试水会员,直播能让新氧再次“乘风破浪”吗?
  18. 特征值和特征向量的作用
  19. 一点笔记,好记性不如烂笔头
  20. 修改导航栏的背景色和字体颜色

热门文章

  1. 我自己编的程序:小型的教务管理系统
  2. Qgis中进行Shp和Excel属性连接实现百强县公共预算空间分析
  3. 树莓派,开机自启程序已启动但并未生效--问题排查
  4. 计算机在幼儿园教育中的应用,信息技术在幼儿园中的运用与思考
  5. Second class css进阶
  6. 【kubernetes】k8s v1.20高可用多master节点部署
  7. 计算机游戏五子连珠怎么出来,Flash游戏制作--五子连珠(一)
  8. 人类文明的归宿——《今日简史》的优秀读后感3495字
  9. 【开发教程10】疯壳·开源蓝牙智能健康手表-OTA镜像制作及下载技术文档
  10. 有杀气童话服务器维护9月,《梦幻西游》手游2015年9月23日维护公告