一:下载所需要的库1:pdfminer安装库命令pip install pdfminer3k pdfminer3k是pdfminer的Python 3端口.PDFMiner是从PDF文档中提取信息的工具。与其他PDF相关的工具不同,它完全专注于获取和分析文本数据.PDFMiner允许获取页面中文本的确切位置,以及其他信息,如字体或线条。它包含一个PDF转换器,可以将PDF文件转换为其他文本格式(如HTML)。它有一个可扩展的PDF解析器,可用于其他目的而不是文本分析.
2:docx安装库命令pip install python_docx Python DocX目前是Python OpenXML的一部分,你可以用它打开Word 2007及以后的文档,而用它保存的文档可以在Microsoft Office 2007/2010,Microsoft Mac Office 2008,Google Docs,OpenOffice.org 3和Apple iWork 08中打开。

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter,process_pdf
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
from docx import Document
document = Document()
import warnings
warnings.filterwarnings("ignore")
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from urllib.request import urlopen
import pandas as pddef readPDF(pdfFile):rsrcmgr = PDFResourceManager()retstr = StringIO()laparams = LAParams()device = TextConverter(rsrcmgr, retstr, laparams=laparams)process_pdf(rsrcmgr, device, pdfFile)device.close()content = retstr.getvalue()retstr.close()return content
def save_to_file(file_name, contents):fh = open(file_name, 'w')fh.write(contents)fh.close()save_to_file('mobiles.txt', 'your contents str')def main():pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")outputString = readPDF(pdfFile)#c.wordsave_to_file('c.csv',outputString)
if __name__ == '__main__':main()

另一种方法

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
from docx import Document
document = Document()
import warnings
warnings.filterwarnings("ignore")
import os
file_name=os.open('/Users/dudu/Desktop/test1/a.pdf',os.O_RDWR )def main():fn = open(file_name,'rb')parser = PDFParser(fn)doc = PDFDocument()parser.set_document(doc)doc.set_parser(parser)resource = PDFResourceManager()laparams = LAParams()device = PDFPageAggregator(resource,laparams=laparams)interpreter = PDFPageInterpreter(resource,device)for i in doc.get_pages():interpreter.process_page(i)layout = device.get_result()for out in layout:if hasattr(out,"get_text"):content = out.get_text().replace(u'\xa0', u' ') document.add_paragraph(content, style='ListBullet'   )document.save('a'+'.docx')print ('处理完成')if __name__ == '__main__':main()

加下面的公众号,我会定期发一些资料。

将pdf文件转换成word,csv文件相关推荐

  1. bin文件怎么转换成文本文档_怎么把pdf文件转换成word文档?这样转很简单

    在日常的学习.工作生活中,小伙伴们总少不了要对文件格式进行转换操作,例如把pdf文件转换成word文档.对于职场老手来说,这当然不算一个难度操作,甚至还很简单.但对于职场新人而言,找不对方法,可能操作 ...

  2. 如何将扫描PDF文件转换成word,两个超简单的方法一看就会

    在工作中我们都会经常接触到PDF文件,但是这些都是比较常见的,有时候会因为工作的需要要接触扫描格式的文件,比较难的是需要将扫描PDF文件转换成Word,很多人就很头疼,不知道该从哪里开始下手去做,虽然 ...

  3. 在线将PDF文件转换成Word新方法

    随着PDF格式文档的盛行,使用它办公的人也越来越多,PDF如何转换成Word文档,如果在Word文档中进行编辑.修改已经成为大家的需要.当你的手头上有少数PDF文档,无需借助PDFF转换工具,在线PD ...

  4. word转pdf图片模糊怎么办_嗨格式PDF转换器如何将PDF文件转换成Word?PDF转Word方法...

    日常办公,我们有时候需要将PDF文件格式进行转换,鉴于PDF文件的特殊性,这就需要借助专业软件,例如嗨格式PDF转换器.嗨格式PDF转换器支持PDF.Word.Excel.PPT.图片等多种文件格式互 ...

  5. OFD怎么转换成PDF? OFD文件转换成Word方法推荐

    随着当前办公系统的不断优化,也衍生出很多特殊的文件格式.像之前我们聊过的caj文件,是针对论文打造的特殊文件格式,即对文件有了强大的安全系数保护,又可以满足用户的阅读需求.这一次我们要为广大用户们带来 ...

  6. 怎样快速在线将pdf文件转换成word

    导语:要实现PDF word在线转换,除了借助电脑端PDF转换器软件,是否还有更快更好的办法实现呢?很多用户基于很多客观原因,不愿下载软件,这里小编给大家介绍一种最新也是最快捷的方法--借助pdf在线 ...

  7. 如何使用ABBYY FineReader 12将JPEG文件转换成Word文档

    日常工作中处理JPEG格式的图像文件时,有时需要转换成Word文档进行编辑,市场上应用而生了很多转换工具,相信不少人听说过OCR(光学字符识别)软件,可以用来转换图像文件,而在OCR软件中, ABBY ...

  8. 如何将caj格式文件转换成word文档

    我们在知网下载文件的时候,就有很多文件都是caj格式的,我们想用它里面的素材写一篇文章,就需要将caj文件转成word文档了,如何将caj格式文件转换成word文档呢? 下面小编教大家caj文件转换成 ...

  9. 怎样将WPS文件转换成Word文档

    相关统计表示,办公室中将WPS文件转换成Word的需要越来越多.很多人直接将文件后缀名修改,造成文件损失的案例不计可数,今天要分享的是利用第三方工具将WPS文件转换成Word文档的操作方法,具体要怎么 ...

  10. 怎么把OFD文件转换成Word?分享轻松转换的方法

    怎么把OFD格式的文件转换成Word文档呢?大家在日常工作中经常会遇见把PDF文件转换成Word,但是如果遇到OFD格式的文件就会不知道怎么转换了,这种格式的文件通常在一些电子发票.电子公文上可以遇到 ...

最新文章

  1. Spring boot的Thymeleaf默认规则
  2. 连接数据库是显示无法连接到服务器,如何解决出现无法与数据库服务器建立连接的方法...
  3. leetcode练习——数组篇(1)(std::ios::sync_with_stdio(false);std::cin.tie(nullptr);)
  4. Gensee移动SDK之(一)结构组成
  5. Vuex和普通全局对象
  6. if命令在HTML语言中 隐藏部分内容,vuejs使用v-if隐藏不需要的内容,生成的html标签中有!-----,请问怎样去掉这些注释?...
  7. .NET设计模式(1):1.1 单例模式(Singleton Pattern)
  8. leetcode python3 简单题9. Palindrome Number
  9. 容易忽视但是功能灰常强大的Java API(二. 读写对象)
  10. 后台传一个状态值,如果在vue设置成正常停用?
  11. springboot 文件下载 文件名乱码 特殊字符乱码
  12. 浅谈数据指标以及指标体系
  13. 【转】鼠标右键多余菜单清理
  14. python 切片器_Excel数据透视表应用之三切片器
  15. java8中数据类型_Java 8中 基本数据类型
  16. jQuery的文档处理
  17. 【android】Android Studio创建模拟手机虚拟机
  18. Mask RCNN综述以及建筑物实例分割
  19. yi.k7p.co/index.php,Muzeum Jarocin
  20. 计算机新建用户如何删除,win10系统如何添加和删除用户?windows10删除用户教程...

热门文章

  1. Unicode编码的字块,Unicode不同范围对应的不同语言的字符集
  2. 服务器win2003系统升级,Windows server 2003 升级 到2008 R2
  3. JAVA小乌龟游泳_描写乌龟游泳的作文
  4. SpringBoot进阶-寻找附近的人,Redis实现交友APP(七)
  5. 四分位数(定义、位置、数值)
  6. c语言青蛙跳答案是多少啊,青蛙跳台阶问题(示例代码)
  7. 陕西移动宽带光猫 GM219-S 路由功能分离
  8. 安规电容可靠性试验项目、试验方法及要求
  9. 电脑开机显示自动修复失败无法进入系统,解决方法(亲试有效!!!)
  10. 什么是显示器的分区背光?侧入式背光与直下式背光有什么区别?什么是Mini LED背光?Micro LED又是什么?