通过XPDF抽取PDF中的中文文本

1、下载XPDF,下载地址: ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip

2、下载字体Gbsn00lp.ttf和gkai00mp.ttf,下载地址:ftp://ftp.foolabs.com/pub/xpdf/xpdf-chinese-simplified.tar.gz

3、解压XPDF和字体,将字体放到xpdf/chinese-simplified/CMap目录下

4、修改add-to-xpdfrc文件中的地址 ,将路径该为本机安装路径

#----- begin Chinese Simplified support package (2004-jul-27) cidToUnicode Adobe-GB1 E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/Adobe-GB1.cidToUnicode unicodeMap ISO-2022-CN E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/ISO-2022-CN.unicodeMap unicodeMap EUC-CN E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/EUC-CN.unicodeMap unicodeMap GBK E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/GBK.unicodeMap cMapDir Adobe-GB1 E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/CMap toUnicodeDir E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/CMap displayCIDFontTT Adobe-GB1 E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/CMap/gkai00mp.ttf #----- end Chinese Simplified support package

5、修改xpdfrc文件 ,把地址修改为本机地址

cidToUnicode Adobe-GB1 E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/Adobe-GB1.cidToUnicode unicodeMap ISO-2022-CN E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/ISO-2022-CN.unicodeMap unicodeMap EUC-CN E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/EUC-CN.unicodeMap unicodeMap GBK E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/GBK.unicodeMap cMapDir Adobe-GB1 E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/CMap toUnicodeDir E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/CMap displayCIDFontTT Adobe-GB1 E:/Study/Flex/xpdf-chinese-simplified/xpdf/chinese-simplified/CMap/gkai00mp.ttf

6、编写简单的程序

string xpdfPath = @"E:/Study/Flex/xpdf-chinese-simplified/xpdf/pdftotext.exe"; string filename = @"E:/Work/FlashViewer/FlashViewer/Flex/Pdf/mayun.pdf"; string strCmd = " -cfg xpdfrc -q " + filename + " - "; Process p = new Process(); p.StartInfo.FileName = xpdfPath;//exe,bat and so on p.StartInfo.WindowStyle = ProcessWindowStyle.Hidden; p.StartInfo.Arguments = strCmd; p.StartInfo.RedirectStandardOutput = true; p.StartInfo.UseShellExecute = false; try { p.Start(); string strmsg = p.StandardOutput.ReadToEnd(); IOHelp.WriteFile(path, strmsg, false); p.WaitForExit(); p.Close(); } catch(Exception e) { Console.WriteLine(e.Message.ToString()); }

通过XPDF抽取PDF中的中文文本相关推荐

  1. XPDF3.04抽取PDF中的中文文本

    2019独角兽企业重金招聘Python工程师标准>>> 开发环境:Windows8.0 X64位          eclipse3.2 版本号:xpdfbin-win-3.04   ...

  2. 如何在java中去除中文文本的停用词

    2019独角兽企业重金招聘Python工程师标准>>> 1.  整体思路 第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词. 第二步:使用停用词表,去 ...

  3. 去停用词 java代码_如何在java中去除中文文本的停用词

    1.  整体思路 第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词. 第二步:使用停用词表,去除分好的词中的停用词. 2.  中文文本分词环境配置 使用的HanLP-汉 ...

  4. itext替换pdf中的中文

    2019独角兽企业重金招聘Python工程师标准>>> 在网上找了一段时间,发现有两个版本的 1,使用aspose.pdf,这篇文章写得很清楚https://blog.csdn.ne ...

  5. java给文件添加水印_Java在PDF中添加水印(文本/图片水印)

    水印是一种十分常用的防伪手段,常用于各种文档.资料等.常见的水印,包括文字类型的水印.图片或logo类型的水印.以下Java示例,将分别使用insertTextWatermark(PdfPageBas ...

  6. pdf中如何编辑文本框

    在word中插入文本框对于经常接触文档的人来说可谓是信手拈来,但是在pdf文档中要进行这个操作该怎么办呢?方法也很简单! 第一步,先到网上下载一个捷速pdf编辑器: 下载好之后将编辑器打开,并单击左上 ...

  7. java pdf 水印_Java在PDF中添加水印(文本/图片水印)

    水印是一种十分常用的防伪手段,常用于各种文档.资料等.常见的水印,包括文字类型的水印.图片或logo类型的水印.以下Java示例,将分别使用insertTextWatermark(PdfPageBas ...

  8. java pdf 水印_Java在PDF中添加水印(文本/图片水印)效果

    水印是一种十分常用的防伪手段,常用于各种文档.资料等.常见的水印,包括文字类型的水印.图片或logo类型的水印.以下Java示例,将分别使用insertTextWatermark(PdfPageBas ...

  9. Java在PDF中添加水印(文本/图片水印)效果import com.spire.pdf.*; import com.spire.pdf.graphics.*; import java.awt.*;

    水印是一种十分常用的防伪手段,常用于各种文档.资料等.常见的水印,包括文字类型的水印.图片或logo类型的水印.以下Java示例,将分别使用insertTextWatermark(PdfPageBas ...

最新文章

  1. Linux 命令行小技巧《叹号的用处》
  2. python定义类()中写object和不写的区别
  3. 女生学计算机教学,女生学计算机专业好吗 计算机辅助数学教学之我见
  4. mysql主从同步配置超详细_MySQL主从同步配置
  5. mybatis中去除多余的前缀或者后缀
  6. how to find the original page containing a given image
  7. 1*1的卷积核与Inception
  8. [Material Design] MaterialButton 效果进阶 动画自动移动进行对齐效果
  9. linux上的smartsvn图形客户端,CentOS6.3下svn图形客户端smartsvn安装
  10. 你必备的39个大数据可视化工具
  11. python实现excel单元格合并_Python_pandas实现excel工作表合并功能
  12. 深度系统安装移动硬盘启动_Legacy无损更改UEFI启动并安装双系统
  13. 有一张足够大的纸,它的厚度是0.1毫米。请问,折叠多少次,可以折成珠穆朗玛峰的高度。(java实现)
  14. python:输出10行的杨辉三角 - 二项式的n次方展开系数
  15. Zookeeper介绍、原理及应用
  16. 现流行的第三方库及名称
  17. 一张图读懂一个产业短视频第4期
  18. 英魂之刃服务器维护在几点,2016英魂之刃8.19有没有维护
  19. VB中操作Excel文档
  20. Java 字符串拆分

热门文章

  1. vue项目打包wap2app项目生成apk保姆级教程适合新手看,建议收藏
  2. 服务器消息7995,修复sql2000数据库置疑时出现的错误.docx
  3. Toml的简单说明、配置、使用
  4. element-ui组件popper-class属性
  5. DevExpress的各种版本支持
  6. sql中deny的使用
  7. 抖音seo视频矩阵系统搭建源码|技术研发
  8. PHP学习开发中的小总结
  9. PHP学习中遇到的错误之Notice: Undefined offset: 4
  10. CBC翻转攻击与实验吧CTF例题:简单的登录题