tika 解析html table,Tika HTML文件提取示例

本文概述

为了提取HTML文件的内容, Tika使用了HtmlParser。 HtmlParser是一个类, 用于提取HTML文件的内容和元数据。此类位于org.apache.tika.parser.html包中。它包含下表中列出的构造函数和方法。

正确的HtmlParser构造函数

Constructor

Description

公共HtmlParser()

它用于创建类的实例。

公共HtmlParser(EncodingDetector encodingDetector)

它通过获取EncodingDetector类的实例来创建HtmlParser类的实例。

Tika HtmlParser方法

Method

Description

公共Set getSupportedTypes(ParseContext上下文)

当与给定的解析上下文一起使用时, 它返回此解析器支持的媒体类型集。

公共无效解析(InputStream流, ContentHandler处理程序, 元数据元数据, ParseContext上下文)引发IOException, SAXException, TikaException

它将文档流解析为一系列XHTML SAX事件。

受保护的字符串mapSafeElement(字符串名称)

它用于将安全HTML元素名称映射到语义XHTML等效项。

受保护的布尔值isDiscardElement(String name)

它检查是否应放弃给定HTML元素内的所有内容, 而不是将其包括在解析输出中。

公共String mapSafeAttribute(String elementName, String attributeName)

它使用HtmlMapper机制来自定义HTML映射。

@Field public void setExtractScripts(boolean extractScripts)

它确定是否提取脚本实体中的内容。

公共布尔getExtractScripts()

它用于获取提取的脚本。

Tika HTML文件提取示例

在此示例中, 我们正在提取HTML文件的内容和元数据。参见示例。

package tikaexample;

import java.io.IOException;

import java.io.InputStream;

import org.apache.tika.exception.TikaException;

import org.apache.tika.metadata.Metadata;

import org.apache.tika.parser.ParseContext;

import org.apache.tika.parser.html.HtmlParser;

import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class HtmlParse {

public static void main(final String[] args) throws IOException, SAXException, TikaException {

BodyContentHandler handler = new BodyContentHandler();

HtmlParser parser = new HtmlParser();

Metadata metadata = new Metadata();

ParseContext pcontext = new ParseContext();

try (InputStream stream = AutoDetectParseExample.class.getResourceAsStream("index.html")) {

parser.parse(stream, handler, metadata, pcontext);

}

System.out.println("Document Content:" + handler.toString());

System.out.println("Document Metadata:");

String[] metadatas = metadata.names();

for(String meta : metadatas) {

System.out.println(meta + ": " + metadata.get(meta));

}

输出

Document Content:

Hello, Welcome to srcmini.

Document Metadata:

dc:title: Index Page

Content-Encoding: ISO-8859-1

title: Index Page

Content-Type: text/html; charset=ISO-8859-1

tika 解析html table,Tika HTML文件提取示例相关推荐

tika 解析html table,TIKA提取HTML文档
全屏下面给出的是该程序用于从HTML文档提取内容和元数据.import java.io.File; import java.io.FileInputStream; import java.io.IO ...
java tika 解析pdf,Tika提取PDF文件用法示例
本文概述为了从pdf文件中提取内容, Tika使用PDFParser. PDFParser是用于从pdf文件提取内容和元数据的类.此类位于org.apache.tika.parser.pdf包中. ...
Tika解析rar文件
在做的项目中使用到了一些解析的功能,其中便使用到了tika,我对其原理也是一知半解,只会使用代码但由于文件中含有rar文件,使用tika并不能解析出其中的内容,为了解决这个问题,我想到了一些思路: ...
python读取xml标注坐标_遍历文件创建XML对象方法 python解析XML文件提取坐标计存入文件...
XML文件??? xml即可扩展标记语言,它可以用来标记数据.定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言. 里面的标签都是可以随心所欲的按照他的命名规则来定义的,文件名为roi.xm ...
[299]python实现批量解析PDF文件提取内容并写入到Excel中
摘要:最近需要将一批PDF文件中的某些数据整理到Excel中,因为文件数量接近20w+,手动更新几乎不现实,于是就提取关键词和内容动手写了个Python小工具,以实现自动完成上述目标. 要求: 读取P ...
【人脸识别】解析MS-Celeb-1M人脸数据集及FaceImageCroppedWithAlignment.tsv文件提取
更多内容关注微信公众号:ML_Study 1,MS-Celeb-1M数据集: MSR IRC是目前世界上规模最大.水平最高的图像识别赛事之一,由MSRA(微软亚洲研究院)图像分析.大数据挖掘研究组组 ...
java jsoup解析_3使用Jsoup解析Java中HTML文件的示例
java jsoup解析 HTML是Web的核心,无论您是通过JavaScript,JSP,PHP,ASP或任何其他Web技术动态生成的,您在Internet上看到的所有页面都是基于HTML的. 您的 ...
3使用Jsoup解析Java中HTML文件的示例
HTML是Web的核心,无论您是通过JavaScript,JSP,PHP,ASP还是任何其他Web技术动态生成的,您在Internet上看到的所有页面都是基于HTML的. 您的浏览器实际上是解析HTM ...
目标检测xml文件提取
提取xml文件的目标名,xmin,ymin,xmax,ymax,在图上把框框出来并保存. 使用try except避免xml文件中可能存在的标注错误. xml文件提取: 使用xml.dom.minid ...

tika 解析html table,Tika HTML文件提取示例

tika 解析html table,Tika HTML文件提取示例相关推荐

最新文章

热门文章