Atitit pdf转文本 pdf2txt v4 t83.docx

Atitit pdf转文本 pdfutil

目录

1.1. Pdfbox cmd 模式 TextToPDF 1

1.2. Pdf util code 2

1.3. Pdf api模式 5

2. ref 6

import org.apache.poi.hslf.extractor.PowerPointExtractor;

poi工具

public static String readPPT(String f) {

PowerPointExtractor extractor;

try {

extractor = new PowerPointExtractor(new FileInputStream(new File(f)));

return extractor.getText();

} catch (IOException e) {

ExUtilV2t33.throwExV2(e);

}

return null;

}

java -jar C:\Users\attilax\Pictures\pdfbox-app-2.0.9.jar  ExtractText   "C:\atibeks517\l4 doc v3 r7a ori exted\_0index\一种简单的基于字符形状的验证码识别技术.pdf"   c:\logs\识别技术.pdf.txt

转html

-console

false

Send text to console instead of file.

-html

false

Output in HTML format instead of raw text.

  1. Pdfbox cmd 模式 TextToPDF

This application will create a PDF document from a text file.

Usage: java -jar pdfbox-app-2.y.z.jar TextToPDF [OPTIONS] <outputfile> <textfile>

Command-Line Parameter

Default

Description

-standardFont

Helvetica

The font to use for the text. Either this or -ttf should be specified but not both.

-ttf

The TTF font to use for the text. Either this or -standardFont should be specified but not both.

java——PDF转换txt - 乞彦 - 博客园.html

java -jar C:\Users\attilax\Pictures\pdfbox-app-2.0.9.jar  ExtractText -console  "C:\atibeks517\l4 doc v3 r7a ori exted\_0index\一种简单的基于字符形状的验证码识别技术.pdf"   c:\logs\识别技术.pdf.txt

  1. Pdf util code

/FulltxtLucenePrj/src/com/attilax/archive/pdfutilV3t88.java

pdfutilV3t88.java

import java.io.ByteArrayOutputStream;

import java.io.File;

import java.io.IOException;

import java.nio.file.FileVisitResult;

import java.nio.file.Files;

import java.nio.file.Path;

import java.nio.file.Paths;

import java.nio.file.SimpleFileVisitor;

import java.nio.file.attribute.BasicFileAttributes;

import org.apache.commons.exec.CommandLine;

import org.apache.commons.exec.DefaultExecuteResultHandler;

import org.apache.commons.exec.DefaultExecutor;

import org.apache.commons.exec.ExecuteException;

import org.apache.commons.exec.ExecuteWatchdog;

import org.apache.commons.exec.PumpStreamHandler;

import org.apache.commons.io.FileUtils;

import org.apache.commons.io.FilenameUtils;

import com.attilax.util.ExUtil;

public class pdfutilV2 {

public static void main(String[] args) throws ExecuteException, IOException {

Files.walkFileTree(

Paths.get(

"C:\\Users\\Administrator\\Documents\\WeChat Files\\attilax\\FileStorage\\File\\2019-08\\CityLink接入文档"),

new SimpleFileVisitor<Path>() {

// 处理文件

public FileVisitResult visitFile(Path file, BasicFileAttributes attrs) throws IOException {

// return super.visitFile(file, attrs);

String fpath = file.toString();

String ext=FilenameUtils.getExtension(fpath);

if(!ext.equals("pdf"))

return FileVisitResult.CONTINUE; // 没找到继续找

String rzt = pdfutilV2.convert2txt_consoleBlockmodeV2(fpath);

FileUtils.writeStringToFile(new File("d:\\0pdfout\\" + file.toFile().getName() + ".txt"), rzt,

true);

return FileVisitResult.CONTINUE; // 没找到继续找

}

});

String sou = "C:\\atibeks517\\l4 doc v3 r7a ori exted\\_0index\\一种简单的基于字符形状的验证码识别技术.pdf";

String dest = " c:\\logs\\v2识别技术.pdf.txt";

System.out.println();

;

}

public static String convert2txt_consoleBlockmodeV2(String sou) {

// String s = " java -jar D:\\0gif sexy\\pdfbox-app-2.0.9.jar  ExtractText  @sou@ @dest@";

// s.replaceAll("@sou@", sou);

// s.replaceAll("@dest@", dest);

// final CommandLine cmdLine = CommandLine.parse(s);

final CommandLine cmdLine = new CommandLine("D:\\jdk1.8.0_31\\bin\\java.exe");

cmdLine.addArgument("-jar");

cmdLine.addArgument("D:\\0gif sexy\\pdfbox-app-2.0.9.jar");

cmdLine.addArgument("ExtractText");

cmdLine.addArgument("-console");

cmdLine.addArgument(sou);

// cmdLine.addArgument(dest);

// DefaultExecuteResultHandler resultHandler = new

// DefaultExecuteResultHandler();

DefaultExecutor executor = new DefaultExecutor();

try {

ByteArrayOutputStream baos = new ByteArrayOutputStream();

executor.setStreamHandler(new PumpStreamHandler(baos, baos));// iytstren

System.out.println( cmdLine);

executor.execute(cmdLine);

String result = baos.toString("utf8").trim();

return result;

} catch (Exception e) {

ExUtil.throwExV2(e);

}

return "";

}

  1. Pdf api模式

/bookmarksHtmlEverythingIndexPrj/src/emailPKg/ExtractTextFromPDF.java

package emailPKg;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileNotFoundException;

import java.io.IOException;

import org.apache.commons.io.FileUtils;

import org.apache.commons.io.FilenameUtils;

import org.apache.pdfbox.pdfparser.PDFParser;

import org.apache.pdfbox.pdmodel.PDDocument;

import org.apache.pdfbox.util.PDFTextStripper;

/**

* jra 1.8.16

* @author zhoufeiyue

*

*/

public class ExtractTextFromPDF {

public static  String readPDFV2WithCache(String filename,String cacheDir) throws  Exception{

String basename=FilenameUtils.getName(filename);

File file2 = new File(cacheDir+"\\"+basename+".txt");

if(file2.exists())

{

return FileUtils.readFileToString(file2);

}

File file = new File(filename);

FileInputStream in = null;

in = new FileInputStream(filename);

PDFParser parser = new PDFParser(in);

parser.parse();

PDDocument pdDocument = parser.getPDDocument();

PDFTextStripper stripper = new PDFTextStripper();

String result = stripper.getText(pdDocument);

System.out.println("PDF文件" + file.getAbsolutePath()+"内容如下:");

FileUtils.write(file2, result);

return (result);

}

  1. ref

Apache PDFBox _ Command-Line Tools.html

Atitit 读写文件慢的解决方案cache法  pdf转txt

Atitit pdf转文本 pdf2txt v4 t83.docx Atitit pdf转文本 pdfutil 目录 1.1. Pdfbox cmd 模式 TextToPDF 1 1.2. Pdf相关推荐

  1. Atitit 常见每日流程日程日常工作.docx v4

    Atitit 常见每日流程日程日常工作.docx v4 ----早晨 签到 晨会,每天或者隔天 每日计划( )项目计划,日常计划等. mailbox读取检查 每日趋势 推库 -----下午 签退 每日 ...

  2. Atitit 手机号码选号 规范 流程 attilax总结 v4 s81.docx 1. Keyword关键词 2 2. 靓号的定义 2 3. 靓号的重要意义 与解决问题 为什么我们需要靓号

    Atitit  手机号码选号 规范 流程  attilax总结 v4 s81.docx 1. Keyword关键词 2 2. 靓号的定义 2 3. 靓号的重要意义 与解决问题 为什么我们需要靓号指南, ...

  3. Atitit 号码规范 靓号指南 attilax总结 v4 r926.docx 1. Keyword关键词 2 2. 为什么我们需要靓号指南,因为很多人手机号都是瞎选乱选,没有规范不成方圆

    Atitit   号码规范  靓号指南   attilax总结 v4 r926.docx 1. Keyword关键词 2 2. 为什么我们需要靓号指南,因为很多人手机号都是瞎选乱选,没有规范不成方圆 ...

  4. Atitit s2018 s4 doc list dvchomepc dvccompc.docx .docx \s2018 s4 doc compc dtS44 \s2018 s4 doc dvc

    Atitit s2018 s4 doc list dvchomepc dvccompc.docx .docx \s2018 s4 doc compc dtS44 \s2018 s4 doc dvcCo ...

  5. Atiitt 可视化 报表 图表之道 attilax著 Atiitt 可视化的艺术 attilax著 v2 s51.docx Atitit.可视化与报表原理与概论 1. 、什么是可视化(这一

    Atiitt  可视化 报表 图表之道 attilax著 Atiitt  可视化的艺术 attilax著 v2 s51.docx Atitit.可视化与报表原理与概论 1. .什么是可视化(这一节有点 ...

  6. python docx 替换文字_查找并替换.docx文件中的文本 - Python

    我一直在寻找一种方法来查找和替换docx文件中的文本而运气不佳 . 我已经尝试过docx模块而无法使用它 . 最后,我使用zipfile模块计算了下面描述的方法,并替换了docx存档中的documen ...

  7. atitit 音频 项目 系列功能表 音乐 v3 t67.docx Atitit 音频 项目 系列功能表 1.音频 音乐 语言领域的功能表 听歌识曲功能 酷我功能。 铃声 功能。。 音频切割(按

    atitit 音频 项目 系列功能表 音乐 v3 t67.docx Atitit 音频 项目 系列功能表 音频 音乐 语言领域的功能表 听歌识曲功能 酷我功能. 铃声 功能.. 音频切割(按照副歌部分 ...

  8. atitit 音频 项目 系列功能表 音乐 v3 t67.docx Atitit 音频 项目 系列功能表 音频 音乐 语言领域的功能表 听歌识曲功能 酷我功能。 铃声 功能。。 音频切割(按照副歌部

    atitit 音频 项目 系列功能表 音乐 v3 t67.docx Atitit 音频 项目 系列功能表 音频 音乐 语言领域的功能表 听歌识曲功能 酷我功能. 铃声 功能.. 音频切割(按照副歌部分 ...

  9. Atitit 常见每日流程日程日常工作.docx v8 ver ampm imp 签到 am y 天气情况检查 am y 晨会,每天或者隔天 am 每日计划(项目计划,日计划等。 am

    Atitit 常见每日流程日程日常工作.docx v8 ver ampm imp 签到 am y 天气情况检查 am y 晨会,每天或者隔天 am 每日计划(项目计划,日计划等. am 如遇一周,一月 ...

  10. 如何在 PDF 中搜索并准确找到您要查找的文本内容

    您是否需要在冗长的 PDF 文档中快速查找单词或短语? 没有什么比打开一个只有文本墙的大型 PDF 文档更令人沮丧的了.或者必须在很长的文本中找到特定的单词或短语.或者很长的 PDF. 它不方便.耗时 ...

最新文章

  1. 首届“陇剑杯”网络安全大赛线上赛圆满结束
  2. php arraymap()函数
  3. java判断一个数是不是质数(素数)
  4. 0-1背包问题(C语言)
  5. matlab简单程序实例视频,matlab编程实例100例.docx
  6. [原创]部门年会活动流程
  7. L2-4 哲哲打游戏 (25 分)
  8. SpringBoot指南(四)——RESTful风格
  9. mac上使用终端生成RSA公钥和密钥
  10. zabbix自动发现url以及对http返回状态码监控实现
  11. jdk6-jdk9常用版本下载地址整理
  12. C语言show用法,show的用法及句型
  13. 开放式蓝牙耳机排行,列举几款值得推荐的开放式蓝牙耳机
  14. 服饰业最佳实践 – ZARA的十大成功要素
  15. es+ik+kibana的简单使用
  16. 如何查询电商平台真实销售数据?(京东怎么看销量)
  17. 计算机安装重装出现错误,电脑重装系统老是失败要怎么办?我教你几个方法,一定能装上去!...
  18. 049--python--多人聊天室案例
  19. 关于QQ使用的一些代码
  20. delete和delete[]

热门文章

  1. 寻找亚马逊测评师邮箱_亚马逊测评怎么做,做亚马逊测评买家号怎么做?
  2. hierbernate 关闭缓存设置_CDN与其他层面缓存
  3. mysql主从复制从机开启读_MySQL主从复制和读写分离
  4. [通信] ITU-T G.729 8kb/s CS—ACELP简介
  5. 经典的CSS代码(转)
  6. 什么?吴宗宪在淘宝帮你买买买?
  7. 重构和代码异味——通往更整洁的代码
  8. mysql的粗略学习
  9. linux下mysql双机主从复制(一主一从)----方法2
  10. 服务器群集及web服务器负载均衡Lvs-network小案例