把开发过程中常用的一些代码段做个珍藏,下面的代码是关于C# 用 iTextSharp 将 PDF 转成文本的代码。

using System;
using System.IO;
using iTextSharp.text;
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;public class ParsingPDF {static string PDF;static string TEXT2;public void parsePdf(String src, String dest){PdfReader reader = new PdfReader(src);StreamWriter output = new StreamWriter(new FileStream(dest, FileMode.Create));int pageCount = reader.NumberOfPages;for (int pg = 1; pg <= pageCount; pg++){byte[] streamBytes = reader.GetPageContent(pg);PRTokeniser tokenizer = new PRTokeniser(streamBytes);while (tokenizer.NextToken()){if (tokenizer.TokenType == PRTokeniser.TokType.STRING){output.WriteLine(tokenizer.StringValue);}}}output.Flush();output.Close();}static void Main(string[] args){if (args.Length < 1 || args.Length > 2){Console.WriteLine("USAGE: ParsePDF infile.pdf <outfile.txt>");return;}else if (args.Length == 1){PDF = args[0];TEXT2 = Path.GetFileNameWithoutExtension(PDF) + ".txt";}else{PDF = args[0];TEXT2 = args[1];}try{DateTime t1 = DateTime.Now;ParsingPDF example = new ParsingPDF();example.parsePdf(PDF, TEXT2);DateTime t2 = DateTime.Now;TimeSpan ts = t2 - t1;Console.WriteLine("Parsing completed in {0:0.00} seconds.", ts.TotalSeconds);}catch (Exception ex){Console.WriteLine("ERROR: " + ex.Message);}public class MyTextRenderListener : IRenderListener{protected StreamWriter output;public MyTextRenderListener(StreamWriter output){this.output = output;}public void BeginTextBlock(){output.Write("<");}public void EndTextBlock(){output.WriteLine(">");}public void RenderImage(ImageRenderInfo renderInfo){}public void RenderText(TextRenderInfo renderInfo){output.Write("<");output.Write(renderInfo.GetText());output.Write(">");}

C# 用 iTextSharp 将 PDF 转成文本的代码相关推荐

  1. 将PDF转换成文本,用python写代码

    可以使用 Python 中的 PyPDF2 库来将 PDF 文件转换为文本. 首先,需要安装 PyPDF2: pipinstall pypdf2 然后,你可以使用以下代码来打开 PDF 文件并读取其内 ...

  2. linux pdf 转 txt文件,linux 下 pdf 转换成txt(示例代码)

    pdf有转换,如果是非扫描的,转换很快,识别率100%,很多软件可以转:如果是扫描的,就比较麻烦需要用到OCR技术(文字识别). 在linux下: 依赖包  poppler-utils  tesser ...

  3. C#使用iTextSharp将数据导出成PDF

    这个导出PDF还是满费劲的,百度了好久都是零零散散的,要不就是收费的,最终还是拼出来了一个简单的版本. using System; using System.Collections.Generic; ...

  4. itextsharp 获取文本_利用iTextSharp提取PDF文件中的文本内容

    最近测试中需要对比两个PDF文件的内容,当然只是文字没有图表的,但是没有现成的工具可用.于是我的想法是先把PDF转换为Text,然后再对比Text的内容.现在问题的关键变成了如何提取PDF中的文本,在 ...

  5. 使用iTextSharp 导出PDF 详解(转)

    PDF文件是目前比较流行的电子文档格式,在办公自动化(OA)等软件的开发中,经常要用到该格式,但介绍如何制作PDF格式文件的资料非常少,在网上搜来搜去,都转贴的是同一段"暴力"破解 ...

  6. 该怎样才能将PDF转换成HTML

    2019独角兽企业重金招聘Python工程师标准>>> 将PDF转换成HTML网页格式,是快速打造专业级网站的方法之一.当用户找到了非常详实的PDF资料,打算将之制作成为网页格式时, ...

  7. linux中将文本中的单词换掉的指令_为什么说从PDF中提取文本是一件困难的事?...

    PDF文档处理工作中,总是绕不开对文本提取的需求.很多用户觉得我们PDFlux好用,所以对其中的底层技术也非常感兴趣.也有人为认为,从PDF里抽取文本段落和表格,应该非常简单! 近期,我们会对PDF文 ...

  8. pdf转换成html python,在Python中将pdf转换为html

    Python 2.6 我试图解析我的pdf文件,其中一种方法是将其转换为html并提取标题和段落. 所以,我尝试了pdf2htmlEX,它将我的pdf转换成html格式,而不干扰我的pdf格式...到 ...

  9. 怎样把pdf转换成word

    PDF格式良好的视觉阅读性和通用性使得PDF文件的使用越来越广泛了,网络上的PDF资料也越来越多,但是我们往往想要提出某些资料里面的部分文字内容进行二次编辑,那么我们这里就是讲比较通用的PDF转为WO ...

最新文章

  1. StarlingMVC简介,原理解说及示例源码
  2. 2017-06-08 前端日报
  3. iPad导入Mac:非常快!一气呵成,直接去photo里面选择,之后左上角倒出就好,颠覆之前windows上面的认知!
  4. JDK中的Atomic包中的类及使用
  5. delphi 提取字符中的数字
  6. 余额宝放10万元,一年收益大概有多少钱?
  7. 为特使构建控制平面的指南-为可插入性构建
  8. Linux fwrite 什么时候刷新,linux的fwrite()使用方法,当前时间写入文本的程序
  9. centos离线部署gitlab
  10. 微信小程序开发需要了解的三个内核技术
  11. 第一部分 第四章 1059-1101 答案合集
  12. [渝粤教育] 南开大学 面向对象程序设计 参考 资料
  13. 影响计算机启动硬件,电脑开机速度跟哪些硬件有关。
  14. 工作中那些让人印象深刻的BUG(1)
  15. 曾被疑为有血缘关系的明星
  16. vivado里那些看不懂的原语
  17. HDU 威威猫系列故事——篮球梦
  18. 展厅设计全面优化企业形象,取得客户的信任为合作打下良好的基础
  19. 手机浏览器HTML5测试:三星Tizen居冠、Mango垫底
  20. 电脑维修不求人:电脑常见故障维修大全及解决方法

热门文章

  1. 商业模式画布、精益画布
  2. VS2010/MFC编程入门之一(Ribbon界面开发:创建Ribbon样式的应用程序框架)
  3. AD 多边形 圆形 快速覆铜
  4. 使用redis就可以获得root权限,怎么做的?
  5. Windows 7安装步骤
  6. 【python】奥数题
  7. linux kdb内核调试器,linux kdb 内核调试器
  8. 【博主已解决】win10系统wlan消失 网络适配器出现黄色感叹号(代码56)
  9. vscode搭建opencv4.5.5+opencv_contrib4.5.5开发环境
  10. 视频教程-自媒体和网络运营实战-网络营销