tika 解析html table,TIKA提取HTML文档
全屏
下面给出的是该程序用于从HTML文档提取内容和元数据。import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.html.HtmlParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.SAXException;
public class HtmlParse {
public static void main(final String[] args) throws IOException,SAXException, TikaException {
//detecting the file type
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(new File("example.htmll"));
ParseContext pcontext = new ParseContext();
//Html parser
HtmlParser htmlparser = new HtmlParser();
htmlparser.parse(inputstream, handler, metadata,pcontext);
System.out.println("Contents of the document:" + handler.toString());
System.out.println("Metadata of the document:");
String[] metadataNames = metadata.names();
for(String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}
}
保存上述代码保存为HtmlParse.java,并通过使用下面的命令从命令提示编译:javac HtmlParse.java
java HtmlParse
下面给出的是 example.htmll 文档的快照。
HTML文档有以下属性:
执行上述程序后,将得到下面的输出。
输出:Contents of the document:
Name Salary age
Ramesh Raman 50000 20
Shabbir Hussein 70000 25
Umesh Raman 50000 30
Somesh 50000 35
Metadata of the document:
title: HTML Table Header
Content-Encoding: windows-1252
Content-Type: text/html; charset=windows-1252
dc:title: HTML Table Header
分享到:
0评论
tika 解析html table,TIKA提取HTML文档相关推荐
- tika 解析html table,Tika HTML文件提取示例
本文概述 为了提取HTML文件的内容, Tika使用了HtmlParser. HtmlParser是一个类, 用于提取HTML文件的内容和元数据.此类位于org.apache.tika.parser. ...
- aip格式转化为pdf_python提取pdf文档中的表格数据、svg格式转换为pdf
提取pdf文件中的表格数据原文链接 https://www.analyticsvidhya.com/blog/2020/08/how-to-extract-tabular-data-from-pdf- ...
- python svg2rlg_python提取pdf文档中的表格数据、svg格式转换为pdf
提取pdf文件中的表格数据原文链接 https://www.analyticsvidhya.com/blog/2020/08/how-to-extract-tabular-data-from-pdf- ...
- C#提取TXT文档指定内容
早上有分享一篇<VB.NET提取TXT文档指定内容> http://www.cnblogs.com/insus/p/3267347.html 那是原网友的需求用VB.NET写的. 刚才有只 ...
- android 抓取webview中的所有图片_如何一键提取PDF文档中的所有图片?
原标题:如何一键提取PDF文档中的所有图片? 目前PDF文档被大家广泛应用,主要是因为PDF文档在传输和转换的过程中比较稳定,所以PDF格式几乎是办公文件格式的首选.大家都知道PDF文档转换格式以及编 ...
- 用C++解析HTTP下载下来的HTML文档
最近跟朋友一起写了一个 批量网站查询工具 BlueCatTools,其中,需要用C++解析HTTP下载下来的HTML文档. 懂的人不用我多说,不懂的我也没能力说道你懂,看代码吧. BlueCatToo ...
- 【教程】Spire.PDF教程:C# 如何提取 PDF 文档中的文本和图片
Spire.PDF是一个专业的PDF组件,能够独立地创建.编写.编辑.操作和阅读PDF文件,支持 .NET.Java.WPF和Silverlight. [下载Spire.PDF最新试用版] 文本和图片 ...
- Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址
推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社 教材封面: 全国各地新华书店有售 京东购买链接: 配套资源:教学大纲 ...
- Python3-word文档操作(八):提取word文档中的图片方式一-利用docx库
1. 简介: 要获取word文档中的图片文件.思路就是先解压,再查找.python中,下面两个库都可以实现这个功能: (1)zip库 (2)docx库 zip库: 上一篇博文已经提过,word本质上也 ...
最新文章
- 5 Best User Interface Design Pattern Libraries
- 在node.js中复制文件的最快方法
- 寒武纪芯片——有自己的SDK,支持tf、caffe、MXNet
- 2020年,产品经理如何提高求职成功率?
- Apache Rewrite 规则详解
- 那些方式可以合并php数组,php中数组合并的几种方法
- Chrome浏览器兼容性 检测工具 (chrome插件)
- 优秀案例UI素材模板|深层解析iPhone手机APP页面怎么设计?
- clickhouse分布式DDL查询
- 使用PyTorch建立您的第一个文本分类模型
- 统计学基础Statistics for the Behavioral Sciences 之 Sample Variance as an Unbiased Statistic
- 安卓手机上最好用的3个azw3阅读器
- PHP——简单留言板
- wifi频率和zigbee干扰_怎样设置Zigbee和wifi信道避免干扰?
- 计算机专业人员有补贴吗,2020年各地软考证书申领补贴需要什么条件
- PHP实现文件下载两种方式(a标签和header标签)
- linux版本qq,QQLinux版本下载-QQ最新版本下载v2.0.0
- 机器学习在网络安全领域的应用(二)
- C#对接条码电子秤拉取和下发数据
- JIRA实践系列-JIRA与阿里云效对接指南