全屏

下面给出的是该程序用于从HTML文档提取内容和元数据。import java.io.File;

import java.io.FileInputStream;

import java.io.IOException;

import org.apache.tika.exception.TikaException;

import org.apache.tika.metadata.Metadata;

import org.apache.tika.parser.ParseContext;

import org.apache.tika.parser.html.HtmlParser;

import org.apache.tika.sax.BodyContentHandler;

import org.xml.sax.SAXException;

public class HtmlParse {

public static void main(final String[] args) throws IOException,SAXException, TikaException {

//detecting the file type

BodyContentHandler handler = new BodyContentHandler();

Metadata metadata = new Metadata();

FileInputStream inputstream = new FileInputStream(new File("example.htmll"));

ParseContext pcontext = new ParseContext();

//Html parser

HtmlParser htmlparser = new HtmlParser();

htmlparser.parse(inputstream, handler, metadata,pcontext);

System.out.println("Contents of the document:" + handler.toString());

System.out.println("Metadata of the document:");

String[] metadataNames = metadata.names();

for(String name : metadataNames) {

System.out.println(name + ":   " + metadata.get(name));

}

}

}

保存上述代码保存为HtmlParse.java,并通过使用下面的命令从命令提示编译:javac HtmlParse.java

java HtmlParse

下面给出的是 example.htmll 文档的快照。

HTML文档有以下属性:

执行上述程序后,将得到下面的输出。

输出:Contents of the document:

Name                     Salary    age

Ramesh Raman             50000    20

Shabbir Hussein             70000          25

Umesh Raman             50000    30

Somesh                     50000    35

Metadata of the document:

title:   HTML Table Header

Content-Encoding:   windows-1252

Content-Type:   text/html; charset=windows-1252

dc:title:   HTML Table Header

分享到:

0评论

tika 解析html table,TIKA提取HTML文档相关推荐

  1. tika 解析html table,Tika HTML文件提取示例

    本文概述 为了提取HTML文件的内容, Tika使用了HtmlParser. HtmlParser是一个类, 用于提取HTML文件的内容和元数据.此类位于org.apache.tika.parser. ...

  2. aip格式转化为pdf_python提取pdf文档中的表格数据、svg格式转换为pdf

    提取pdf文件中的表格数据原文链接 https://www.analyticsvidhya.com/blog/2020/08/how-to-extract-tabular-data-from-pdf- ...

  3. python svg2rlg_python提取pdf文档中的表格数据、svg格式转换为pdf

    提取pdf文件中的表格数据原文链接 https://www.analyticsvidhya.com/blog/2020/08/how-to-extract-tabular-data-from-pdf- ...

  4. C#提取TXT文档指定内容

    早上有分享一篇<VB.NET提取TXT文档指定内容> http://www.cnblogs.com/insus/p/3267347.html 那是原网友的需求用VB.NET写的. 刚才有只 ...

  5. android 抓取webview中的所有图片_如何一键提取PDF文档中的所有图片?

    原标题:如何一键提取PDF文档中的所有图片? 目前PDF文档被大家广泛应用,主要是因为PDF文档在传输和转换的过程中比较稳定,所以PDF格式几乎是办公文件格式的首选.大家都知道PDF文档转换格式以及编 ...

  6. 用C++解析HTTP下载下来的HTML文档

    最近跟朋友一起写了一个 批量网站查询工具 BlueCatTools,其中,需要用C++解析HTTP下载下来的HTML文档. 懂的人不用我多说,不懂的我也没能力说道你懂,看代码吧. BlueCatToo ...

  7. 【教程】Spire.PDF教程:C# 如何提取 PDF 文档中的文本和图片

    Spire.PDF是一个专业的PDF组件,能够独立地创建.编写.编辑.操作和阅读PDF文件,支持 .NET.Java.WPF和Silverlight. [下载Spire.PDF最新试用版] 文本和图片 ...

  8. Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址

    推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社 教材封面: 全国各地新华书店有售 京东购买链接: 配套资源:教学大纲 ...

  9. Python3-word文档操作(八):提取word文档中的图片方式一-利用docx库

    1. 简介: 要获取word文档中的图片文件.思路就是先解压,再查找.python中,下面两个库都可以实现这个功能: (1)zip库 (2)docx库 zip库: 上一篇博文已经提过,word本质上也 ...

最新文章

  1. 5 Best User Interface Design Pattern Libraries
  2. 在node.js中复制文件的最快方法
  3. 寒武纪芯片——有自己的SDK,支持tf、caffe、MXNet
  4. 2020年,产品经理如何提高求职成功率?
  5. Apache Rewrite 规则详解
  6. 那些方式可以合并php数组,php中数组合并的几种方法
  7. Chrome浏览器兼容性 检测工具 (chrome插件)
  8. 优秀案例UI素材模板|深层解析iPhone手机APP页面怎么设计?
  9. clickhouse分布式DDL查询
  10. 使用PyTorch建立您的第一个文本分类模型
  11. 统计学基础Statistics for the Behavioral Sciences 之 Sample Variance as an Unbiased Statistic
  12. 安卓手机上最好用的3个azw3阅读器
  13. PHP——简单留言板
  14. wifi频率和zigbee干扰_怎样设置Zigbee和wifi信道避免干扰?
  15. 计算机专业人员有补贴吗,2020年各地软考证书申领补贴需要什么条件
  16. PHP实现文件下载两种方式(a标签和header标签)
  17. linux版本qq,QQLinux版本下载-QQ最新版本下载v2.0.0
  18. 机器学习在网络安全领域的应用(二)
  19. C#对接条码电子秤拉取和下发数据
  20. JIRA实践系列-JIRA与阿里云效对接指南

热门文章

  1. 调节效应检验(二):PROCESS
  2. 转:组织突破从制定战略开始
  3. leetcode 从房屋收集雨水需要的最少水桶数
  4. 关注被美国收养的中国孤儿-孤儿在中国的分布图
  5. JAVA博物馆交流平台计算机毕业设计Mybatis+系统+数据库+调试部署
  6. Three.js - 加载 TGA 格式的纹理
  7. gg修改器怎么修改服务器文件,gg修改器脚本导入未找到文件范例图片
  8. Python 模板 Jinja2
  9. 物联12:rfid天线场区、耦合形式与频率
  10. 教育培训软件的基础功能介绍培训管理系统教师在线直播教育功能开发方案