1.1  pdf文档

PDF(Portable Document Format)文件格式是Adobe公司所开发的一种特殊的文本格式,这种文本格式最大的优点是其尺寸较小、阅读方便,非常适合在网络上传播和使用。

Pdf和doc有许多的差别,转化过程尤其是pdf转化为doc的过程中,会出现许多不一致的地方。所以,如果对doc文档排版要求比较高,并且怕丢失某些资料,那么手动的复制粘贴方法是最稳妥的。

本文所包含的内容均基于本人的实际工作经验,转化的方法还有许多,欢迎大家多多交流。本文所引用的数据和链接均来自互联网,由于时间和网站更新等诸多因素,本人不能保证有效性和可用性,大家也可以寻找更合适的工具。

1.1.1  纯图片的pdf文档

所谓“纯图片”的pdf文档,是指pdf的内容只有图片,比如将一本书扫描或者拍照成为图片之后,在组合和转化成为pdf文档。在这样的文档中,虽然看起来图文并茂,但实际上这些内容都被固定在图片当中,无法进行文字复制或另存图片。

对于这样的pdf文档,只有对照文字重新输入到doc文档中,其中的图片则可以采取截图的方法获得,再插入到doc文档中。

例如下边的图片,在这张图片当中,有文字和图片,但它们都不能在doc中进行编辑了。如果把这张图片

1.1.2  Pdf文件的阅读工具和编辑工具

Adobe Reader

它只可以进行pdf文件的阅读和非常简单的操作,所以软件也相对要小许多(20MB左右)。

8.0免费版版下载地址:http://dl.pconline.com.cn/html_2/1/81/id=1322&pn=0&linkPage=1.html

Adobe Acrobat Professional

它是专业的pdf文件制作和转换工具,功能很强大。它一般比较大,7.0版约210MB,8.0版约260MB(本人还没有使用过)。非常多的软件(如word、excel、powerpoint、indesign等等)的文件都可以转化为pdf文件。

7.0版下载地址(迅雷下载):http://61.129.76.84/dload1.html?cid=6CDC6A7C73B963ABF4A5EEE1C055A805C0DF75C1

8.0版下载地址(迅雷下载):

http://down1.greendown.cn//200611/AcroPro80_efg.rar

1.2  Pdf转化为doc的方法

以下描述的转化方法,只有在pdf文档不是纯图片的情况下才可以进行。

另外,如果pdf文档带有密码保护,也不能使用以下转化方法。需使用“pdf password recover”软件来清除其保护密码,才能使用以下方法。

1.2.1  复制粘贴法

以Adobe Acrobat Professional 7.0软件为例:

1.    在界面中,选择如下图红色箭头所指的“选择”工具按钮,然后移动鼠标箭头到pdf文档文字上方,鼠标箭头会变成选择光标。

2.    此时,按下鼠标左键不放,移动鼠标选择需要复制的文字,如上图蓝色条纹所示。

3.    按下键盘组合键“Ctrl+C”,或者在蓝色条纹上单击鼠标右键,在弹出的菜单中选择“复制到剪切板”。(如果选择复制为表,粘贴后,会按照一个回车键一行的方式,生成一个看不到表格边框线的表格)

4.    把已经复制到剪切板的文字粘贴到doc即可完成文字转换。

5.    如果想要把pdf文档中的图片也转到doc中,有两种方式:A,将图片另存为jpg文件到电脑中,然后在doc中将它们一一插入。B,采取截图方式,粘贴到doc文档中。(这两种图片移植到doc的方法下边将有介绍)

复制粘贴法的操作稍微麻烦,操作量也稍大,但是该方法能保证在剪辑doc文档时,更好的保证文档质量,包括格式是否改变、文字是否丢失、图片是否变形等。

另存pdf文档中的图片

该方法以Adobe Acrobat Professional 7.0为基础,过程如下:

1.    选择菜单栏中的“高级”→“导出所有图像”,如下图所示。

2.    在“导出所有图像为”菜单中,选择好保存的路径;然后可以按自己的意愿重新命名,这个命名将作为所有图片文件名称的最前字段;再选择好保存类型,如jpg、bmp等;最后点击“保存”。

3.    如下图显示,保存末端路径在“新建文件夹(2)。所有图片按照在pdf文档中出现的顺序一一导出,它们的名称都是按照第2步定义的名称开头,然后是出现在pdf文档中的第几页,再是该图片在该页码中的顺序。比如,第15页共有5张图片。

提示:把图片导出到一个路径层次比较浅的文件夹中,以方便在doc文档中导入它们,比如可以放在桌面的某个文件夹。但是如果以后还会用到的话,最好还是放到自己熟悉的、非操作系统所在的地方。

截取pdf文档中的图片

截取pdf文档中的图片,可以迅速的把它们粘贴应用到doc文档,但是这样的话,就没有留下图片文件在硬盘当中,不方便以后的编辑和更新这些图片。当然也可以在截取它们之后,使用Windows自带的画图工具、Photoshop、CorelDraw等软件,把它们另存为图片文件,这样做的效果和另存图片差不多。

截图工具有很多,截图的方式也多种多样,以下是本人常用的两种方法,它们各有优缺点。

方法一

1.    打开pdf文档,使要截取的图片能全部看到,然后按下键盘上的“print”键。这个按键用于将电脑的整个屏幕图像都复制到剪切板,可以粘贴到各种编辑软件中。

2.    然后选择“开始”→“所有程序”→“附件”,打开Windows操作系统(以XP系统为例)自带的画图软件。

3.    按下“Ctrl+V”组合键,将整个屏幕的图像粘贴到画图软件中,如下图所示。

4.    选择如下图红色箭头所指的“选框工具”,框选如下图所示的机器(虚线则为选定的界线),然后按下“Ctrl+C”,这时框选的内容就复制到系统剪切板上,可供其它软件粘贴用。

5.    打开doc文件,将光标移动到需要粘贴图片的位置,按下“Ctrl+V”,图片移植完成。

总结:该方法移植图片,操作量稍大。

方法二(以capture截图工具为例)

1.    打开pdf文档,使要截取的图片能全部看到,选择截图工具。

2.    框选需要截取的图片范围,确定之后即把框选的内容复制到系统剪切板上。如下图,这就是截图工具完成抓图任务后弹出的提示信息(该图为第二次抓取)。

3.    打开doc文件,将光标移动到需要粘贴图片的位置,按下“Ctrl+V”,图片移植完成。

Doc文档插入图片的方法

1.    将光标移动到要插入图片的位置,选择“图片”→“来自文件”。

2.    在“插入图片”菜单中,找到图片所在的文件夹,选择需要插入的图片,然后在菜单右下角的地方(有个下三角符号)选择“插入”或“连接文件”。如果使用“连接文件”方式插入,doc文档会记住插入图片的路径和文件名,当有同名的图片把该路径下的图片覆盖,doc文档会自动更新。

1.2.2  工具转化法

使用Office2003自带的工具转换

1.    首先使用Adobe Reader打开待转换的PDF文件,接下来选择“文件→打印”菜单,在打开的“打印”设置窗口中将“打印机”栏中的“名称”设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。

2.    如果在“名称”设置的下拉列表中没有找到“Microsoft Office Document Image Writer”项,那证明你在安装Office 2003的时候没有安装该组件,请使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件。

3.    运行 Microsoft Office Document Imaging,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,并在弹出的窗口中勾选“在输出时保持图片版式不变”,确认后系统提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,确认即可。

总结:该方法不需使用多余的工具,操作步骤少。但是,它的文字识别率很低,丢失东西比较多,格式会变得很混乱,转化后的doc文档错误百出、惨不忍睹。所以,在有更好的条件的情况下,不推荐使用该方法。

ScanSoft PDF Converter for Microsoft Word

它是由ScanSoft公司和微软共同组队开发的一个Word的插件,它可以让你在没有Adobe Acrobat软件的情况下,将PDF文档转化为Word文档。它首先捕获PDF文档中的信息,分离文字、图片、表格和卷,再将其统一到Word格式,并且基本上完全保留原来的格式和版面设计。所以它的转化效果是比较理想的了,但是软件比较大(我当初用的版本有200MB左右,现在似乎小了不少,但是我没有再用过它),而且转化速度比较慢。

该软件安装完成后,会自动嵌入到word中。如果没有嵌入,可以在word工具栏的空白处单击鼠标右键,将它打勾选择。

它可以作为单独的软件启动,也可以在word界面中启动。它的转化方法如下:

1.    在Word界面,直接通过“文件”—>“打开”来打开需要转化的PDF文件。

2.    此时插件会自动弹出,在分析完PDF文件后即可自动转换成DOC格式的文档。

总结:在以前的使用过程当中,我发现它的转化效果很理想。比如,把一篇doc文档转换为pdf之后,用它转换为doc;然后又把它转换为pdf,再转换为doc;如此反复多次之后,doc文档的资料丢失率很低,版面保持得不错,不是很乱。所以,它是比较理想的转换工具。但是对于纯的图片形式的pdf好像也无能为力了,我想这里还是要用到图像识别技术才能很好的完成了。(写出这样的软件也是很有前途的!)

下载地址(迅雷下载):http://mdl1.mydown.com/soft1/200510/ScanSoft_PDF_Converter_v2.0.KG.rar

PDF 2 Word

PDF 2 Word是一个独立运行的小软件,而非插件。

它的版本很多,有的版本不需要安装,直接运行exe程序后,在软件界面中选择pdf、设置doc输出路径即可。

总结:它在载入比较大的pdf文件时会稍慢一些,转换速度非常快,对于图片和文档格式的识别不是很好。转化后,文字基本保持格式,且都是在文本框当中;图片则会有些错位,不好进行设置,且容易和带文字的文本框重叠。但是,它基本很少丢失东西,对于这样小巧玲珑的软件,这就不错了。

下载地址:http://www.crsky.com/soft/9236.html

pdf文档转化为doc文档 (转载)相关推荐

  1. 把grb2文档转化为nc文档,并使用matlab查看

    把grb2文档转化为nc文档,并使用matlab查看 目前在做笔记,怕忘了,加个笔记. 第一步,下载个wgrib2文件.下面是网址和路径. https://ftp.cpc.ncep.noaa.gov/ ...

  2. java doc转换docx_JAVA - 将doc文档转为docx文档

    因为项目需要解析文档,而且 doc 文档还不少,全网能找到的靠谱的解析doc甚至是将doc转txt的方案实际上不多.这个是部分文件统计 .Net 和 java 有一个收费的解决方案,但是我确实没钱sp ...

  3. 【ES笔记01】ElasticSearch数据库之index索引、doc文档、alias别名、mappings映射结构的基本操作

    这篇文章,主要介绍ElasticSearch数据库之index索引.doc文档.alias别名.mappings映射结构的基本操作. 目录 一.索引index相关操作 1.1.创建索引 1.2.查询索 ...

  4. java 将doc格式的文档转化为pdf格式(实现Word文件预览)

    doc格式的文档要实现预览功能,首先要将文档转化为pdf格式的文档 doc文档转pdf文档步骤 导入jar包 将aspose-words-jdk16-14.6.0.0.jar包导入项目中: 创建一个格 ...

  5. Python 技术篇-利用Office VBA实现word文档转化为pdf文档实例演示

    # -*- coding: UTF8 -*- from win32com.client import *def switch_pdf(path, name):'''作用:将word文档转化为pdf文档 ...

  6. 使用java对html源代码(拼装、可获取页面源代码)转换为(html页面,doc文档文件,pdf格式),doc文件转换成为pdf,文件的删除、压缩功能

    目录: 1.转换成为html页面 2.html源代码转换成为doc文件 3.html源代码转换成为pdf文件 4.压缩多个文件成为一个zip文件 5.对文件进行删除 实施过程: A.html页面的实现 ...

  7. python利用win32com实现doc文档转为pdf文档的功能

    1.首先,必须去安装相关的库,使用命令:pip install pypiwin32,接下来是主要代码: import win32com.client import pythoncomclass Wor ...

  8. 前格式 直接将转换为当_如何将word转化为PDF格式?1分钟学会文档转换

    如何将word转化为PDF格式?不知道大家在学习和工作中有没有遇到过文件转换的问题,基本上所有的人在使用了各种数据文档后,都有为了文档格式转换而发愁的,因此这里重点给大家介绍一些文件转换的工具和方法, ...

  9. 使用java将word文档docx,doc(包含图形,文本框)完美转换成所有格式图片(pdf,png,gif,jpeg等等)

    使用java将word文档docx,doc(包含图形,文本框,图片等)完美转换成所有格式图片(pdf,png,gif,jpeg等等)下文中附带代码,效果图等 思路 使用到的包 实现代码 效果图: 思路 ...

最新文章

  1. Aerospike系列:5:安装AMC
  2. 内存对齐与sizeof
  3. python绘制3d图形-万万没想到,Python 竟能绘制出如此酷炫的三维图
  4. Web 趋势榜:上周最热门、又实用的 10 大 Web 项目 - 210813
  5. .net core webapi 列表返回指定的字段_ADO.NET 使用初探之SQL操作 | C# 数据操作系列...
  6. 经典数字信号处理图书的个人评述【转】
  7. 为什么程序员老在改 Bug,就不能一次改好吗?
  8. 计算机设备财产登记册,幼儿园财产登记制度
  9. w3school离线手册
  10. 自己来制作iso镜像用于安装OpenBSD
  11. 银行代收代付代扣业务
  12. 微博技术架构分析和设计
  13. C#编程_实现简易的任务管理器
  14. docker 安装 onlyoffice
  15. 黑得漂亮!SyScan360黑客大会展示17秒攻陷IE
  16. 7-14 然后是几点 (15分)
  17. Thirteen Days 邻接表及广度优先遍历
  18. 网页版音频播放器,歌词随音乐而动
  19. 海思 hikey970 开发板简介
  20. linux 中etc全拼,英语中“等等”缩写成为etc.吗?要加一点吗?全拼是...

热门文章

  1. (五)通过pygame搭建游戏框架
  2. Kotlin - 改良策略模式
  3. 在linux下 用户的密码错误,linux中root用户密码错误如何解决
  4. 12.Linux 网络配置
  5. Requests: 1, Fetched: 0, Skipped: 0, Processed: 0
  6. 淘宝客订单同步,关联私域授权用户,给用户返分,流程是如何串起来的
  7. KSO-vue创建项目以及安装npm与node
  8. mathtype试用期到后继续使用
  9. php中baseasset,放映员资料库 ~ 影院之家 | The projectionist database - CineAsset 5.2.11 for Win 下载...
  10. 不重视,小程序将会带来大风险!——三大风险、隐私合规,小程序主该如何面对?