Atitit ppt转换文本txt

目录

1.1. Atitit word ppt excel convert txt bp 等文档转换纯文本问题最佳实践.docx 1

1.2. 跨语言转换OpenOffice 1

1.3. 转换2007版本pptx 2

  1. Atitit word ppt excel convert txt bp 等文档转换纯文本问题最佳实践.docx

Atitit word ppt excel等文档转换txt问题最佳实践

目录

1.1. // Word 直接抽取全部内容 1

1.2. //分章节Section、段落Paragraph、字符串CharacterRun抽取 1

1.3.    //直接抽取幻灯片的全部内容 2

1.4.    //一张幻灯片一张幻灯片地读取 3

1.5. //直接读取Excel的全部内容 4

1.6.     //读取时细化到Sheet、行甚至单元格 4

  1. 跨语言转换OpenOffice

D:\0workspace\AtiPlatf_cms\src\com\attilax\office\Office2Pdf.java

F:\workspace 空格\officePdf2html\src\com\attilax\office\Office2Pdf.java

将Office文档转换为PDF. 运行该函数需要用到OpenOffice, OpenOffice下载地址为

* http://www.openoffice.org/

public static int office2PDF(String sourceFile, String destFile) {

try {

File inputFile = new File(sourceFile);

//                if (!inputFile.exists()) {

//                    return -1;// 找不到源文件, 则返回-1

//                }

// 如果目标路径不存在, 则新建该路径

File outputFile = new File(destFile);

if (!outputFile.getParentFile().exists()) {

outputFile.getParentFile().mkdirs();

}

String OpenOffice_HOME = "D:\\Program Files\\OpenOffice.org 3";//这里是OpenOffice的安装目录, 在我的项目中,为了便于拓展接口,没有直接写成这个样子,但是这样是绝对没问题的

// 如果从文件中读取的URL地址最后一个字符不是 '\',则添加'\'

if (OpenOffice_HOME.charAt(OpenOffice_HOME.length() - 1) != '\\') {

OpenOffice_HOME += "\\";

}

// 启动OpenOffice的服务

//                String command = OpenOffice_HOME

//                        + "program\\soffice.exe -headless -accept=\"socket,host=127.0.0.1,port=8100;urp;\"";

//                Process pro = Runtime.getRuntime().exec(command);

// connect to an OpenOffice.org instance running on port 8100

OpenOfficeConnection connection = new SocketOpenOfficeConnection(

"127.0.0.1", 8100);

connection.connect();

// convert

DocumentConverter converter = new OpenOfficeDocumentConverter(

connection);

converter.convert(inputFile, outputFile);

// close the connection

connection.disconnect();

// 关闭OpenOffice服务的进程

// pro.destroy();

  1. 转换2007版本pptx

/OfficeExcelPrj/src/apkg/ppt2txt.java

import org.apache.poi.hslf.extractor.PowerPointExtractor;

import org.apache.poi.xslf.extractor.XSLFPowerPointExtractor;

import org.apache.poi.xslf.usermodel.XMLSlideShow;

public class ppt2txt {

@SuppressWarnings("all")

public static void main(String[] args) throws IOException, UnsupportedFlavorException {

// System.out.println( clipboard.getContents(DataFlavor.stringFlavor));

String f = "d:\\夯实硬实力、迎接腾飞——打造思维发展课堂-简化.pptx";

f = (String) ( (Transferable) Toolkit.getDefaultToolkit().getSystemClipboard().getContents(null)).getTransferData(DataFlavor.stringFlavor);

System.out.println(f);

System.out.println(readDoc1_2007fmt(new File(f)));

}

private static String readDoc1_2007fmt(File file) throws FileNotFoundException, IOException {

// 根据xml格式的文件得到一个ppt素材

XSLFPowerPointExtractor ppt = new XSLFPowerPointExtractor(new XMLSlideShow(new FileInputStream(file)));

return ppt.getText();

}

public static String readDoc1(InputStream is) throws IOException {

PowerPointExtractor extractor = new PowerPointExtractor(is);

return extractor.getText();

}

Atitit ppt转换文本txt 目录 1.1. Atitit word ppt excel convert txt bp 等文档转换纯文本问题最佳实践.docx 1 1.2. 跨语言转换Open相关推荐

  1. [AsciiDoc]_[项目管理]_[适合写书写需求文档的纯文本轻量级标记语言]

    场景 markdown适合写短篇文章,但是不适合写书,需求文档这类复杂多页的文档.有什么文本格式适合写需求文档呢?并且能生成PDF或者docx格式方便阅读? 说明 在阅读gradle的userguid ...

  2. 将PDF和Gutenberg文档格式转换为文本:生产中的自然语言处理

    Estimates state that 70%–85% of the world's data is text (unstructured data). Most of the English an ...

  3. 将word文档中所有文本框中的内容转换成普通段落

    某些pdf转word工具生成的word文档,会将很多内容放在文本框中,以至于编辑word文档不太方便,例如想全选所有段落中的文字再调整某些格式,文本框中的文字有时候不能像普通段落中的文字一样产生同样的 ...

  4. cad快捷键文件路径_办公格式转太难不会看这里!CAD、PDF、Word、Excel、TXT教你玩转...

    办公格式转,你遇到最难解决的问题是哪些? 办公格式转,最让你头疼的文件格式是哪些? 办公格式转,你最想要学习转换格式有哪些? 我:Word.Excel.PPT.TXT.CAD.PDF.JPG统统都想要 ...

  5. Python使用标准库zipfile+re提取docx文档中超链接文本和链接地址

    推荐教材: <Python程序设计实用教程>,ISBN:978-7-5635-6065-3,董付国,北京邮电大学出版社 教材封面: 全国各地新华书店有售 京东购买链接: 配套资源:教学大纲 ...

  6. 【Python】导出docx格式Word文档中的文本、图片和附件等

    [Python]导出docx格式Word文档中的文本.图片和附件等 零.需求 为批量批改学生在机房提交的实验报告,我需要对所有的实验文档内容进行处理.需要批量提取Word文档中的图片和附件以便进一步检 ...

  7. (详细)如何使用Freemarker生成Word文档中的文本、图片、表格、附件?

    前言-Freemarker简单介绍 近期项目工作中需要编写大量格式相同但数据不同的Word文档,需要实现自动生成文档的效果,但是通过网上冲浪和官方文档搜索,相对来说,没有分类整理的文档,因此自己抽空简 ...

  8. 【教程】Spire.PDF教程:C# 如何提取 PDF 文档中的文本和图片

    Spire.PDF是一个专业的PDF组件,能够独立地创建.编写.编辑.操作和阅读PDF文件,支持 .NET.Java.WPF和Silverlight. [下载Spire.PDF最新试用版] 文本和图片 ...

  9. Word处理控件Aspose.Words功能演示:用Java从Word文档中提取文本

    Aspose.Words For .NET是一种高级Word文档处理API,用于执行各种文档管理和操作任务.API支持生成,修改,转换,呈现和打印文档,而无需在跨平台应用程序中直接使用Microsof ...

  10. Word控件Spire.Doc 【文本】教程(5) ;从 Word 文档中的文本框中提取文本

    文本框的目的是允许用户输入程序要使用的文本信息.也可以从文本框中提取现有的文本信息.以下指南重点介绍如何通过Spire.Doc for .NET从 C# 中 Word 文档的文本框中提取文本. Spi ...

最新文章

  1. 5m 云服务器2核4g_华为云服务器2核4G 5M 248一年
  2. php mysql备份代码_PHP备份/还原MySQL数据库的代码
  3. FPGA之道(7)时钟网络资源
  4. ASP.NET MVC WebAPI实现文件批量上传
  5. CTFshow php特性 web146
  6. oracle协议适配器错误00530,oracle监听程序无法启动(TNS-12560: TNS: 协议适配器错误,TNS-00530: 协议适配器错误)...
  7. markdown 本地链接_Markdown的使用
  8. Python中的join函数
  9. 【每日算法Day 106】打家劫舍系列最后一弹,撑住你就赢了!
  10. Atitit q2016 q5 doc list on home ntpc.docx
  11. Java课程设计-旅游管理系统
  12. 问卷与量表数据分析(SPSS+AMOS)学习笔记(六) : SPSS 描述性统计分析
  13. VS编程,几个好用的Visual Studio插件推荐(一)
  14. 无限的可能的投资回报率
  15. 电子计算机 划分发展阶段,电子计算机主要是以( )为标志来划分发展阶段的
  16. 用JAVA编写MD5大写32位加密
  17. linux学习笔记16
  18. 70后程序男的成长经历
  19. 湖南省常德市谷歌高清卫星地图下载
  20. Windows命令行查看盘符-列盘符

热门文章

  1. 借助传感器用计算机测速度讲解,高中物理个性化教学的开展论文
  2. 频谱分析_滚动轴承的频谱分析
  3. arduino与风向传感器的接线_Arduino动手做(8)湿度传感器模块
  4. 深入探索Java工作原理:JVM,内存回收及其他
  5. 表格存储(TableStore)
  6. java归并排序自底向上实现:
  7. 思达BI软件StyleIntelligence实例教程—柱状数据对比分析图
  8. iOS调试 - 基本技巧
  9. Obj-C的hello,world 1
  10. 进程中堆栈向下增长的原因