Atitit ppt转换文本txt 目录 1.1. Atitit word ppt excel convert txt bp 等文档转换纯文本问题最佳实践.docx 1 1.2. 跨语言转换Open
Atitit ppt转换文本txt
目录
1.1. Atitit word ppt excel convert txt bp 等文档转换纯文本问题最佳实践.docx 1
1.2. 跨语言转换OpenOffice 1
1.3. 转换2007版本pptx 2
- Atitit word ppt excel convert txt bp 等文档转换纯文本问题最佳实践.docx
Atitit word ppt excel等文档转换txt问题最佳实践
目录
1.1. // Word 直接抽取全部内容 1
1.2. //分章节Section、段落Paragraph、字符串CharacterRun抽取 1
1.3. //直接抽取幻灯片的全部内容 2
1.4. //一张幻灯片一张幻灯片地读取 3
1.5. //直接读取Excel的全部内容 4
1.6. //读取时细化到Sheet、行甚至单元格 4
- 跨语言转换OpenOffice
D:\0workspace\AtiPlatf_cms\src\com\attilax\office\Office2Pdf.java
F:\workspace 空格\officePdf2html\src\com\attilax\office\Office2Pdf.java
将Office文档转换为PDF. 运行该函数需要用到OpenOffice, OpenOffice下载地址为
* http://www.openoffice.org/
public static int office2PDF(String sourceFile, String destFile) {
try {
File inputFile = new File(sourceFile);
// if (!inputFile.exists()) {
// return -1;// 找不到源文件, 则返回-1
// }
// 如果目标路径不存在, 则新建该路径
File outputFile = new File(destFile);
if (!outputFile.getParentFile().exists()) {
outputFile.getParentFile().mkdirs();
}
String OpenOffice_HOME = "D:\\Program Files\\OpenOffice.org 3";//这里是OpenOffice的安装目录, 在我的项目中,为了便于拓展接口,没有直接写成这个样子,但是这样是绝对没问题的
// 如果从文件中读取的URL地址最后一个字符不是 '\',则添加'\'
if (OpenOffice_HOME.charAt(OpenOffice_HOME.length() - 1) != '\\') {
OpenOffice_HOME += "\\";
}
// 启动OpenOffice的服务
// String command = OpenOffice_HOME
// + "program\\soffice.exe -headless -accept=\"socket,host=127.0.0.1,port=8100;urp;\"";
// Process pro = Runtime.getRuntime().exec(command);
// connect to an OpenOffice.org instance running on port 8100
OpenOfficeConnection connection = new SocketOpenOfficeConnection(
"127.0.0.1", 8100);
connection.connect();
// convert
DocumentConverter converter = new OpenOfficeDocumentConverter(
connection);
converter.convert(inputFile, outputFile);
// close the connection
connection.disconnect();
// 关闭OpenOffice服务的进程
// pro.destroy();
- 转换2007版本pptx
/OfficeExcelPrj/src/apkg/ppt2txt.java
import org.apache.poi.hslf.extractor.PowerPointExtractor;
import org.apache.poi.xslf.extractor.XSLFPowerPointExtractor;
import org.apache.poi.xslf.usermodel.XMLSlideShow;
public class ppt2txt {
@SuppressWarnings("all")
public static void main(String[] args) throws IOException, UnsupportedFlavorException {
// System.out.println( clipboard.getContents(DataFlavor.stringFlavor));
String f = "d:\\夯实硬实力、迎接腾飞——打造思维发展课堂-简化.pptx";
f = (String) ( (Transferable) Toolkit.getDefaultToolkit().getSystemClipboard().getContents(null)).getTransferData(DataFlavor.stringFlavor);
System.out.println(f);
System.out.println(readDoc1_2007fmt(new File(f)));
}
private static String readDoc1_2007fmt(File file) throws FileNotFoundException, IOException {
// 根据xml格式的文件得到一个ppt素材
XSLFPowerPointExtractor ppt = new XSLFPowerPointExtractor(new XMLSlideShow(new FileInputStream(file)));
return ppt.getText();
}
public static String readDoc1(InputStream is) throws IOException {
PowerPointExtractor extractor = new PowerPointExtractor(is);
return extractor.getText();
}
Atitit ppt转换文本txt 目录 1.1. Atitit word ppt excel convert txt bp 等文档转换纯文本问题最佳实践.docx 1 1.2. 跨语言转换Open相关推荐
- [AsciiDoc]_[项目管理]_[适合写书写需求文档的纯文本轻量级标记语言]
场景 markdown适合写短篇文章,但是不适合写书,需求文档这类复杂多页的文档.有什么文本格式适合写需求文档呢?并且能生成PDF或者docx格式方便阅读? 说明 在阅读gradle的userguid ...
- 将PDF和Gutenberg文档格式转换为文本:生产中的自然语言处理
Estimates state that 70%–85% of the world's data is text (unstructured data). Most of the English an ...
- 将word文档中所有文本框中的内容转换成普通段落
某些pdf转word工具生成的word文档,会将很多内容放在文本框中,以至于编辑word文档不太方便,例如想全选所有段落中的文字再调整某些格式,文本框中的文字有时候不能像普通段落中的文字一样产生同样的 ...
- cad快捷键文件路径_办公格式转太难不会看这里!CAD、PDF、Word、Excel、TXT教你玩转...
办公格式转,你遇到最难解决的问题是哪些? 办公格式转,最让你头疼的文件格式是哪些? 办公格式转,你最想要学习转换格式有哪些? 我:Word.Excel.PPT.TXT.CAD.PDF.JPG统统都想要 ...
- Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址
推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社 教材封面: 全国各地新华书店有售 京东购买链接: 配套资源:教学大纲 ...
- 【Python】导出docx格式Word文档中的文本、图片和附件等
[Python]导出docx格式Word文档中的文本.图片和附件等 零.需求 为批量批改学生在机房提交的实验报告,我需要对所有的实验文档内容进行处理.需要批量提取Word文档中的图片和附件以便进一步检 ...
- (详细)如何使用Freemarker生成Word文档中的文本、图片、表格、附件?
前言-Freemarker简单介绍 近期项目工作中需要编写大量格式相同但数据不同的Word文档,需要实现自动生成文档的效果,但是通过网上冲浪和官方文档搜索,相对来说,没有分类整理的文档,因此自己抽空简 ...
- 【教程】Spire.PDF教程:C# 如何提取 PDF 文档中的文本和图片
Spire.PDF是一个专业的PDF组件,能够独立地创建.编写.编辑.操作和阅读PDF文件,支持 .NET.Java.WPF和Silverlight. [下载Spire.PDF最新试用版] 文本和图片 ...
- Word处理控件Aspose.Words功能演示:用Java从Word文档中提取文本
Aspose.Words For .NET是一种高级Word文档处理API,用于执行各种文档管理和操作任务.API支持生成,修改,转换,呈现和打印文档,而无需在跨平台应用程序中直接使用Microsof ...
- Word控件Spire.Doc 【文本】教程(5) ;从 Word 文档中的文本框中提取文本
文本框的目的是允许用户输入程序要使用的文本信息.也可以从文本框中提取现有的文本信息.以下指南重点介绍如何通过Spire.Doc for .NET从 C# 中 Word 文档的文本框中提取文本. Spi ...
最新文章
- 5m 云服务器2核4g_华为云服务器2核4G 5M 248一年
- php mysql备份代码_PHP备份/还原MySQL数据库的代码
- FPGA之道(7)时钟网络资源
- ASP.NET MVC WebAPI实现文件批量上传
- CTFshow php特性 web146
- oracle协议适配器错误00530,oracle监听程序无法启动(TNS-12560: TNS: 协议适配器错误,TNS-00530: 协议适配器错误)...
- markdown 本地链接_Markdown的使用
- Python中的join函数
- 【每日算法Day 106】打家劫舍系列最后一弹,撑住你就赢了!
- Atitit q2016 q5 doc list on home ntpc.docx
- Java课程设计-旅游管理系统
- 问卷与量表数据分析(SPSS+AMOS)学习笔记(六) : SPSS 描述性统计分析
- VS编程,几个好用的Visual Studio插件推荐(一)
- 无限的可能的投资回报率
- 电子计算机 划分发展阶段,电子计算机主要是以( )为标志来划分发展阶段的
- 用JAVA编写MD5大写32位加密
- linux学习笔记16
- 70后程序男的成长经历
- 湖南省常德市谷歌高清卫星地图下载
- Windows命令行查看盘符-列盘符