最近测试中需要对比两个PDF文件的内容,当然只是文字没有图表的,但是没有现成的工具可用。于是我的想法是先把PDF转换为Text,然后再对比Text的内容。现在问题的关键变成了如何提取PDF中的文本,在网上找了一下,发现iTextSharp可以满足我的需求。所以我把它写下来供大家参考,关于PDF文件对比如果谁有更好的解决办法,欢迎交流!

这里我创建了一个Windows Form的程序,它的界面如下。点击Browse button,选择需要提取文本内容的PDF文件,点击Open button,该PDF文件的文本内容将会显示在下面的textbox里。

下面是它的详细步骤:

1. 打开VS2010 Express, 新建一个Windows Forms Project,命名为ExtractTextFromPdf。

2. Download itextsharp-all-5.1.2.zip from http://sourceforge.net/projects/itextsharp/, and Unzip itextsharp-dll-core-5.1.2.zip。

3. Add itextsharp.dll as reference in ExtractTextFromPdf project:

4. Add using namespace:

5. 接下来我主要介绍一下一个核心函数,其它的代码我就不贴出来了。

编译运行之后,选择仅含有文本的PDF文件,然后这些文本就会显示出来。

itextsharp 获取文本_利用iTextSharp提取PDF文件中的文本内容相关推荐

  1. 利用Python提取PDF文件中的文本信息

    如何利用Python提取PDF文件中的文本信息 日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,如果是单个文件的话还可以通过复制粘贴来直 ...

  2. Python使用pdfminer3k提取PDF文件中的文本

    推荐教材: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月第1次印刷,2021年12月第11次印刷,山东省一流 ...

  3. python 提取pdf表格_用Python提取pdf文件中的表格数据

    本文作者:杨慧琳 本文编辑:周聪聪 技术总编:张学人有问题,不要怕!访问 http://www.wuhanstring.com/uploads/5_aboutus/爬虫俱乐部-用户问题登记表.docx ...

  4. Python批量提取PDF文件中的文本

    首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import os import sys import time pdfs = (pdfs for pdfs ...

  5. 提取PDF文件中的文本信息

    转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/43527755 我们从网上下载的PDF文件有的是加密处理过的,无法复制其中的内容, ...

  6. python批量提取pdf的数据_Python批量提取PDF文件中文本的脚本

    本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下 首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import ...

  7. 利用python中pdfplumber库提取PDF文件中文字

    pdfplumber库中提供了一个extract_text()方法来帮助我们提取PDF文件中的文字.我们只需要使用pdfplumber中的open()方法打开我们希望提取文字的PDF文件,然后对所需提 ...

  8. Python提取PDF文件中的表格文本保存为Excel文件

    "Python小屋"编程比赛正式开始 推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020 ...

  9. vscode中打开pdf文件_提取pdf文件中的文字

    环境说明 windows10系统 python3.6版本 安装 网上很多说需要安装pdfminer3k和pdfminer3k.six,我尝试了先安装pdfminer3k后安装pdfminer3k.si ...

最新文章

  1. js字符串转化为方法调用
  2. 【手写数据结构】双链表最详细图解
  3. HBase建表高级属性,hbase应用案例看行键设计,HBase和mapreduce结合,从Hbase中读取数据、分析,写入hdfs,从hdfs中读取数据写入Hbase,协处理器和二级索引
  4. 将excel文件中的数据导入到mysql
  5. SAP CRM WebClient UI incident - how is sales area saved
  6. 58 MM配置-评估和科目设置-OBYC配置自动记账
  7. C++ 内存空间初探
  8. 迅雷index.html是什么文件,迅雷看看的缓存文件在哪个文件夹
  9. 端口号分类及其常用端口号
  10. 网卡的 Ring Buffer 详解
  11. ATmega16智能遥控小车
  12. 雅虎的站长天下要关门了,哎,真是悲哀
  13. Android应用添加谷歌登录(Google Sign In)
  14. 浏览我的php网页时,出现的都是网页的代码
  15. 卷积神经网络中Attention注意力机制(CBAM)
  16. 一站式、整套智能家居解决方案——HomeKit?绿米?华为还是智汀?
  17. java 支付宝 第三方即时到账支付 接口
  18. 基于JAVA设计师品牌服装租赁网站计算机毕业设计源码+数据库+lw文档+系统+部署
  19. 从云原生到智能化,深度解读行业首个「视频直播技术最佳实践图谱」
  20. 持续更新!最新FCPX插件模板合集下载,Final Cut Pro X插件大全 效果/转场/字幕/发生器!

热门文章

  1. 40岁左右适合干个什么样的小生意?
  2. 单调队列优化dp--bzoj5185: [Usaco2018 Jan]Lifeguards
  3. docker 搭建frp内网穿透以及frp详细使用
  4. cad镜像后标注尺寸数字反了_急!CAD镜像后文字反向应该怎么处理?
  5. NYOJ - [第九届河南省程序设计大赛]Decimal integer conversion(暴力)
  6. OA办公软件如何帮助企业更好地实现移动办公
  7. 如何利用网络赚钱之一
  8. RequestMapping的映射URL模板
  9. java的正向代理和反向代理
  10. 宜远公众号H5网页AI测肤报告分享