tika 解析html table,TIKA提取HTML文档

全屏

下面给出的是该程序用于从HTML文档提取内容和元数据。import java.io.File;

import java.io.FileInputStream;

import java.io.IOException;

import org.apache.tika.exception.TikaException;

import org.apache.tika.metadata.Metadata;

import org.apache.tika.parser.ParseContext;

import org.apache.tika.parser.html.HtmlParser;

import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class HtmlParse {

public static void main(final String[] args) throws IOException,SAXException, TikaException {

//detecting the file type

BodyContentHandler handler = new BodyContentHandler();

Metadata metadata = new Metadata();

FileInputStream inputstream = new FileInputStream(new File("example.htmll"));

ParseContext pcontext = new ParseContext();

//Html parser

HtmlParser htmlparser = new HtmlParser();

htmlparser.parse(inputstream, handler, metadata,pcontext);

System.out.println("Contents of the document:" + handler.toString());

System.out.println("Metadata of the document:");

String[] metadataNames = metadata.names();

for(String name : metadataNames) {

System.out.println(name + ": " + metadata.get(name));

}

保存上述代码保存为HtmlParse.java，并通过使用下面的命令从命令提示编译：javac HtmlParse.java

java HtmlParse

下面给出的是 example.htmll 文档的快照。

HTML文档有以下属性：

执行上述程序后，将得到下面的输出。

输出:Contents of the document:

Name Salary age

Ramesh Raman 50000 20

Shabbir Hussein 70000 25

Umesh Raman 50000 30

Somesh 50000 35

Metadata of the document:

title: HTML Table Header

Content-Encoding: windows-1252

Content-Type: text/html; charset=windows-1252

dc:title: HTML Table Header

分享到：

0评论

tika 解析html table,TIKA提取HTML文档相关推荐

tika 解析html table,Tika HTML文件提取示例
本文概述为了提取HTML文件的内容, Tika使用了HtmlParser. HtmlParser是一个类, 用于提取HTML文件的内容和元数据.此类位于org.apache.tika.parser. ...
aip格式转化为pdf_python提取pdf文档中的表格数据、svg格式转换为pdf
提取pdf文件中的表格数据原文链接 https://www.analyticsvidhya.com/blog/2020/08/how-to-extract-tabular-data-from-pdf- ...
python svg2rlg_python提取pdf文档中的表格数据、svg格式转换为pdf
提取pdf文件中的表格数据原文链接 https://www.analyticsvidhya.com/blog/2020/08/how-to-extract-tabular-data-from-pdf- ...
C#提取TXT文档指定内容
早上有分享一篇<VB.NET提取TXT文档指定内容> http://www.cnblogs.com/insus/p/3267347.html 那是原网友的需求用VB.NET写的. 刚才有只 ...
android 抓取webview中的所有图片_如何一键提取PDF文档中的所有图片？
原标题:如何一键提取PDF文档中的所有图片? 目前PDF文档被大家广泛应用,主要是因为PDF文档在传输和转换的过程中比较稳定,所以PDF格式几乎是办公文件格式的首选.大家都知道PDF文档转换格式以及编 ...
用C++解析HTTP下载下来的HTML文档
最近跟朋友一起写了一个批量网站查询工具 BlueCatTools,其中,需要用C++解析HTTP下载下来的HTML文档. 懂的人不用我多说,不懂的我也没能力说道你懂,看代码吧. BlueCatToo ...
【教程】Spire.PDF教程：C# 如何提取 PDF 文档中的文本和图片
Spire.PDF是一个专业的PDF组件,能够独立地创建.编写.编辑.操作和阅读PDF文件,支持 .NET.Java.WPF和Silverlight. [下载Spire.PDF最新试用版] 文本和图片 ...
Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址
推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社教材封面: 全国各地新华书店有售京东购买链接: 配套资源:教学大纲 ...
Python3-word文档操作（八）：提取word文档中的图片方式一-利用docx库
1. 简介: 要获取word文档中的图片文件.思路就是先解压,再查找.python中,下面两个库都可以实现这个功能: (1)zip库 (2)docx库 zip库: 上一篇博文已经提过,word本质上也 ...

tika 解析html table,TIKA提取HTML文档

tika 解析html table,TIKA提取HTML文档相关推荐

最新文章

热门文章