我终于发现pyPDF可以帮上忙。我把它寄出去,以防它能帮助别人。

(1)定位字符串的函数def fnPDF_FindText(xFile, xString):

# xfile : the PDF file in which to look

# xString : the string to look for

import pyPdf, re

PageFound = -1

pdfDoc = pyPdf.PdfFileReader(file(xFile, "rb"))

for i in range(0, pdfDoc.getNumPages()):

content = ""

content += pdfDoc.getPage(i).extractText() + "\n"

content1 = content.encode('ascii', 'ignore').lower()

ResSearch = re.search(xString, content1)

if ResSearch is not None:

PageFound = i

break

return PageFound

(2)提取感兴趣页面的函数def fnPDF_ExtractPages(xFileNameOriginal, xFileNameOutput, xPageStart, xPageEnd):

from pyPdf import PdfFileReader, PdfFileWriter

output = PdfFileWriter()

pdfOne = PdfFileReader(file(xFileNameOriginal, "rb"))

for i in range(xPageStart, xPageEnd):

output.addPage(pdfOne.getPage(i))

outputStream = file(xFileNameOutput, "wb")

output.write(outputStream)

outputStream.close()

我希望这对其他人有帮助

python 搜索pdf文件中的文字_使用python查找pdf文档中搜索字符串位于哪一页相关推荐

  1. python读取word中的文字格式_利用Python-docx 读写 Word 文档中的正文、表格、段落、字体等...

    前言: 前两篇博客介绍了 Python 的 docx 模块对 Word 文档的写操作,这篇博客将介绍如何用 docx 模块读取已有 Word 文档中的信息. 本篇博客主要内容有: 1.获取文档的章节信 ...

  2. word文档里怎么嵌入文档_如何在Microsoft Word文档中嵌入字体

    word文档里怎么嵌入文档 When you email someone a copy of your Word document or PowerPoint presentation and the ...

  3. 快速将非Word中的不可编辑的公式转换为Word文档中公式编辑器里可编辑的公式的办法

      因为我最近需要翻译一篇外文文献,其中的公式比较多,如果我自己去Word里用公式编辑器编辑,那么会翻译的会很慢,于是就搞出了一套可以自动将非Word中的不可编辑的公式转换为Word中可编辑的公式的办 ...

  4. python word排版_利用Python-docx 读写 Word 文档中的正文、表格、段落、字体等

    前言: 前两篇博客介绍了 Python 的 docx 模块对 Word 文档的写操作,这篇博客将介绍如何用 docx 模块读取已有 Word 文档中的信息. 本篇博客主要内容有: 1.获取文档的章节信 ...

  5. python word中表格字体设置_利用Python-docx 读写 Word 文档中的正文、表格、段落、字体样式等...

    前言: 前两篇博客介绍了 Python 的 docx 模块对 Word 文档的写操作,这篇博客将介绍如何用 docx 模块读取已有 Word 文档中的信息. 本篇博客主要内容有: 1.获取文档的章节信 ...

  6. python合并word表格单元格_Python实战009:读取Word文档中的表格数据及表格合并问题解决...

    同事最近被安排整理资料,主要工作室将文档中的表格数据提取出来并整理层Excel表格供我们FII刀具商城进行资料维护.由于刀具的种类繁多且规格无数,所以要处理的数据量相当的庞大.人工核对整理既费时又费力 ...

  7. word 替换 增加引号_如何在Word 2013文档中替换部分(不是全部)智能引号

    word 替换 增加引号 Word includes a setting that allows you to automatically convert straight quotes to sma ...

  8. php 提取文字,如何使用PHP从word文档中提取文本内容?

    我想用PHP从word文档中提取文本内容. 我在Microsoft Word for Mac 2011中创建了一个新的单词文档. 编辑:也通过在Windows 7中的Microsoft Word中创建 ...

  9. 易语言 图片插入超级列表框_科技资讯:在PPT文档中如何将一张图片做成九宫格效果...

    最近关于在PPT文档中如何将一张图片做成九宫格效果在网上的热度是非常高的,很多网友们也都是非常关注在PPT文档中如何将一张图片做成九宫格效果这个事情,为此小编也是在网上进行了一番搜索查阅相关的信息,那 ...

  10. word文字铺满页面_Word 2010文档中让水印铺满整个页面的设置方法

    在Word 2010中,通过简单的鼠标单击即可为文档添加水印,但这样只能在每一个文档页面内添加一个水印,这个在前面的文章已经有所介绍,具体请见:Word文档添加内置水印.个性化图片及文字水印的方法,但 ...

最新文章

  1. cubemx pwm dma_红米K30S至尊纪念版翻车?被曝虽是LDC屏,却是PWM调光
  2. mysql基本操作 [http://www.cnblogs.com/ggjucheng/archive/2012/11/03/2752082.html]
  3. 网站外链如何发布才能更快的得到高排名呢?
  4. SLF4J 教程(自由在各种log中切换)
  5. 双系统,重装windows后修复linux的grub启动
  6. 牛客题霸 [ 旋转数组] C++题解/答案
  7. (转)es 聚合查询并返回每个组的数据
  8. oracle之单行函数之子查询课后练习2
  9. 嵌入式实时操作系统ucos-ii_「正点原子NANO STM32开发板资料连载」第三十六章 UCOSII 实验 1任务调度...
  10. xampp中apache点击启动失败解决方法
  11. react html编辑器,在线代码编辑器 Codemirror 的轻量级 React 组件
  12. mongodb 非 admin 库 认证登陆失败 原因(百度好多都 是渣)db.addUser() 请走开。
  13. 猎豹网校java版算法_猎豹网校JAVA语言数据结构与算法视频教程 Java语言
  14. sql vb xml 换行_vb中换行代码 vb代码输出怎么换行
  15. 微信公众号开发踩坑指南(1)——服务器验证与Token获取失败原因
  16. 联通4g满格但是网速慢_4G信号明明满格,但网速却慢过蜗牛,是什么原因?
  17. part Ⅲ Sightseeing and Visits 游览和参观??
  18. python小技巧:一步步教你用Python实现
  19. Linux学习-67-日志服务器设置和日志分析工具(logwatch)安装及使用
  20. python实现图片文字提取,准确率高达99%,强无敌!!!

热门文章

  1. anaconda写python_初学 Python 者自学 Anaconda 的正确姿势是什么?
  2. 2D: 传统目标检测算法综述
  3. Java原生调用apktool反编译及再次打包源码
  4. iOS5完美越狱后必装AppSync补丁教程
  5. DIY分水岭 英特尔核芯显卡大战传统GPU
  6. python async await threading_Python - 从使用线程到使用 async/await
  7. 计算机辅助设计高级绘图员技能鉴定试题,计算机辅助设计高级绘图员技能鉴定试题第二卷...
  8. 计算机网络第一个病毒,世界上第一个计算机病毒:C-BRAIN,病毒始祖(吃硬盘空间)...
  9. zemax初始结构参数设置、选择初始结构依据、初始结构选择的常见途径
  10. Python基础入门:从变量到异常处理(一)