pdf文件转doc文件
依赖
<!-- pdf依赖--><dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>1.8.10</version></dependency>
注:版本过高可能会导致部分代码工具类被替换 需要子调整合适的版本依赖
dome
package com.example.demo;import java.io.File;
import java.io.FileWriter;import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDDocumentInformation;
import org.apache.pdfbox.util.PDFTextStripper;public class PdfToDoc {public static void main(String[] args) throws Exception {//将 PDF 文件读入 PDDocumentFile file = new File("C:\\Users\\Administrator\\Desktop\\PDF2.pdf");PDDocument document = PDDocument.load(file);//获取PDDocumentInformationPDDocumentInformation pdd = document.getDocumentInformation();//获取页数int pages = document.getNumberOfPages();//使用 PDFTextStripper 提取文本PDFTextStripper stripper = new PDFTextStripper();//设置转换的页数stripper.setStartPage(1);stripper.setEndPage(pages);//获取文本String content = stripper.getText(document);//关闭文件document.close();//将文本写入Doc文件File docFile = new File("C:\\Users\\Administrator\\Desktop\\pdf2.doc");FileWriter writer = new FileWriter(docFile);writer.write(content);writer.close();System.out.println("end>>>>>>>>>>>>>>>>>>>");}
}
只把文字写到了doc文件中:未做格式、图片等其他数据处理
后期有时间在更新细节
pdf文件转doc文件相关推荐
- 使用java对html源代码(拼装、可获取页面源代码)转换为(html页面,doc文档文件,pdf格式),doc文件转换成为pdf,文件的删除、压缩功能
目录: 1.转换成为html页面 2.html源代码转换成为doc文件 3.html源代码转换成为pdf文件 4.压缩多个文件成为一个zip文件 5.对文件进行删除 实施过程: A.html页面的实现 ...
- .chm文件与.doc文件互相转换(一).chm转.doc
简介 本文将描述如何将一个.chm文档转化为一个.doc文档. 准备工具:下载一个CHM2Word 2012软件即可. 本文CHM2Word 2012的未破解,试用30天,网上应该有破解版. 安装 转 ...
- open一个绝对路径地址 python_实例15:用Python批量转换doc文件为docx文件
python-docx模块虽然强大,但却不能处理后缀为".doc"的word文件.如果强制读取doc文件,将会报如下错误. import docx #导入docx库doc = do ...
- doc转docx文件会乱吗_利用python将doc文件转换为docx
需求:最近在研究word文档的抽取,发现python中docx库只能提取以docx结尾的文件,因此需要将doc文件转换为docx. 基础知识了解 1.什么是doc? 汉语:文档(外语全称:Docume ...
- DOC文件丢失怎么恢复?用这7种方法找回
在日常生活和工作中,我们经常会因为各种原因丢失重要的DOC文件,这给我们带来了不小的困扰.但是,不必担心,在本文中,我们将带大家了解一下DOC文件丢失怎么恢复. 关于DOC文件 DOC文件是指一种微软 ...
- 【Java】操作doc文件
读取txt文件 在Java里要对文件进行操作,需要用到IO流. public static void main(String args[]){File f = new File("test. ...
- Go如何自动解压缩包?如何读取docx/doc文件内容?
在开发过程中,我们常常需要处理压缩包和文档文件.本文将介绍如何使用Go语言自动解压缩包和读取docx/doc文件. 一.解压缩包 压缩包格式 常见的压缩包格式有zip.gzip.bzip2等.在Go语 ...
- 和doc的区别怎么转换手机_如何把doc文件转换成PDF格式?高手告诉你应该这么做...
视频步骤: 知乎视频www.zhihu.com 有时候老师让交的实验报告文件格式必须为PDF格式,因为PDF与不同的操作系统和软件版本具有很好的兼容性,所以大多数人都喜欢将Word转换成PDF.但有 ...
- react在线浏览doc_如何把doc文件转换成PDF格式?教你一招秒实现
有时候老师让交的实验报告文件格式必须为PDF格式,因为PDF与不同的操作系统和软件版本具有很好的兼容性,所以大多数人都喜欢将Word转换成PDF.但有的同学的Word版本不能直接将doc文件转换成PD ...
最新文章
- 单元、集成、系统、验收测试比较
- day11 - 15(装饰器、生成器、迭代器、内置函数、推导式)
- Lazy WriterCheckPoint
- 【问链-EOS公开课】第九课 EOS 数据库与持久化 API(二)
- beego mysql 存储过程_ioioj5
- 是先打工还是直接创业?答案让我惊呆了!
- QT中border-image的解释
- 华为云华中大联合实验室,夺得2019ICDAR发票识别竞赛世界第一
- 【BZOJ3083】遥远的国度,树链剖分练习
- html table的边框线怎么变圆角_实现CSS3中的border-radius(边框圆角)示例代码
- Maven私服(二) - Nexus的安装
- 【转】win7与ubuntu双系统,删除ubuntu后,启动错误error:no such partition grub rescue的修复--不错...
- python学习手记 pt1
- 编写绘图代码的技巧(二)
- 8000401a错误解决方案(Office Word,Excel,PowerPoit应用程序无法访问)
- 【博主推荐】HTML5响应式手机WEB(附源码)
- Rstudio图片保存方式
- 计算机中丢失audiodsp,AudioDsp.dll(缺失AudioDsp.dll文件修复工具)V1.0 免费版
- php 浏览器打开excel文件夹里,php网页显示excel表格数据-phpexcel 读取excel里的数据并在页面显示出来...
- 第一卷清晨的帝国 第一百四十三章 辩难始