pdf文档转化为doc文档 (转载)
1.1 pdf文档
PDF(Portable Document Format)文件格式是Adobe公司所开发的一种特殊的文本格式,这种文本格式最大的优点是其尺寸较小、阅读方便,非常适合在网络上传播和使用。
Pdf和doc有许多的差别,转化过程尤其是pdf转化为doc的过程中,会出现许多不一致的地方。所以,如果对doc文档排版要求比较高,并且怕丢失某些资料,那么手动的复制粘贴方法是最稳妥的。
本文所包含的内容均基于本人的实际工作经验,转化的方法还有许多,欢迎大家多多交流。本文所引用的数据和链接均来自互联网,由于时间和网站更新等诸多因素,本人不能保证有效性和可用性,大家也可以寻找更合适的工具。
1.1.1 纯图片的pdf文档
所谓“纯图片”的pdf文档,是指pdf的内容只有图片,比如将一本书扫描或者拍照成为图片之后,在组合和转化成为pdf文档。在这样的文档中,虽然看起来图文并茂,但实际上这些内容都被固定在图片当中,无法进行文字复制或另存图片。
对于这样的pdf文档,只有对照文字重新输入到doc文档中,其中的图片则可以采取截图的方法获得,再插入到doc文档中。
例如下边的图片,在这张图片当中,有文字和图片,但它们都不能在doc中进行编辑了。如果把这张图片
1.1.2 Pdf文件的阅读工具和编辑工具
Adobe Reader
它只可以进行pdf文件的阅读和非常简单的操作,所以软件也相对要小许多(20MB左右)。
8.0免费版版下载地址:http://dl.pconline.com.cn/html_2/1/81/id=1322&pn=0&linkPage=1.html
Adobe Acrobat Professional
它是专业的pdf文件制作和转换工具,功能很强大。它一般比较大,7.0版约210MB,8.0版约260MB(本人还没有使用过)。非常多的软件(如word、excel、powerpoint、indesign等等)的文件都可以转化为pdf文件。
7.0版下载地址(迅雷下载):http://61.129.76.84/dload1.html?cid=6CDC6A7C73B963ABF4A5EEE1C055A805C0DF75C1
8.0版下载地址(迅雷下载):
http://down1.greendown.cn//200611/AcroPro80_efg.rar
1.2 Pdf转化为doc的方法
以下描述的转化方法,只有在pdf文档不是纯图片的情况下才可以进行。
另外,如果pdf文档带有密码保护,也不能使用以下转化方法。需使用“pdf password recover”软件来清除其保护密码,才能使用以下方法。
1.2.1 复制粘贴法
以Adobe Acrobat Professional 7.0软件为例:
1. 在界面中,选择如下图红色箭头所指的“选择”工具按钮,然后移动鼠标箭头到pdf文档文字上方,鼠标箭头会变成选择光标。
2. 此时,按下鼠标左键不放,移动鼠标选择需要复制的文字,如上图蓝色条纹所示。
3. 按下键盘组合键“Ctrl+C”,或者在蓝色条纹上单击鼠标右键,在弹出的菜单中选择“复制到剪切板”。(如果选择复制为表,粘贴后,会按照一个回车键一行的方式,生成一个看不到表格边框线的表格)
4. 把已经复制到剪切板的文字粘贴到doc即可完成文字转换。
5. 如果想要把pdf文档中的图片也转到doc中,有两种方式:A,将图片另存为jpg文件到电脑中,然后在doc中将它们一一插入。B,采取截图方式,粘贴到doc文档中。(这两种图片移植到doc的方法下边将有介绍)
复制粘贴法的操作稍微麻烦,操作量也稍大,但是该方法能保证在剪辑doc文档时,更好的保证文档质量,包括格式是否改变、文字是否丢失、图片是否变形等。
另存pdf文档中的图片
该方法以Adobe Acrobat Professional 7.0为基础,过程如下:
1. 选择菜单栏中的“高级”→“导出所有图像”,如下图所示。
2. 在“导出所有图像为”菜单中,选择好保存的路径;然后可以按自己的意愿重新命名,这个命名将作为所有图片文件名称的最前字段;再选择好保存类型,如jpg、bmp等;最后点击“保存”。
3. 如下图显示,保存末端路径在“新建文件夹(2)。所有图片按照在pdf文档中出现的顺序一一导出,它们的名称都是按照第2步定义的名称开头,然后是出现在pdf文档中的第几页,再是该图片在该页码中的顺序。比如,第15页共有5张图片。
提示:把图片导出到一个路径层次比较浅的文件夹中,以方便在doc文档中导入它们,比如可以放在桌面的某个文件夹。但是如果以后还会用到的话,最好还是放到自己熟悉的、非操作系统所在的地方。
截取pdf文档中的图片
截取pdf文档中的图片,可以迅速的把它们粘贴应用到doc文档,但是这样的话,就没有留下图片文件在硬盘当中,不方便以后的编辑和更新这些图片。当然也可以在截取它们之后,使用Windows自带的画图工具、Photoshop、CorelDraw等软件,把它们另存为图片文件,这样做的效果和另存图片差不多。
截图工具有很多,截图的方式也多种多样,以下是本人常用的两种方法,它们各有优缺点。
方法一
1. 打开pdf文档,使要截取的图片能全部看到,然后按下键盘上的“print”键。这个按键用于将电脑的整个屏幕图像都复制到剪切板,可以粘贴到各种编辑软件中。
2. 然后选择“开始”→“所有程序”→“附件”,打开Windows操作系统(以XP系统为例)自带的画图软件。
3. 按下“Ctrl+V”组合键,将整个屏幕的图像粘贴到画图软件中,如下图所示。
4. 选择如下图红色箭头所指的“选框工具”,框选如下图所示的机器(虚线则为选定的界线),然后按下“Ctrl+C”,这时框选的内容就复制到系统剪切板上,可供其它软件粘贴用。
5. 打开doc文件,将光标移动到需要粘贴图片的位置,按下“Ctrl+V”,图片移植完成。
总结:该方法移植图片,操作量稍大。
方法二(以capture截图工具为例)
1. 打开pdf文档,使要截取的图片能全部看到,选择截图工具。
2. 框选需要截取的图片范围,确定之后即把框选的内容复制到系统剪切板上。如下图,这就是截图工具完成抓图任务后弹出的提示信息(该图为第二次抓取)。
3. 打开doc文件,将光标移动到需要粘贴图片的位置,按下“Ctrl+V”,图片移植完成。
Doc文档插入图片的方法
1. 将光标移动到要插入图片的位置,选择“图片”→“来自文件”。
2. 在“插入图片”菜单中,找到图片所在的文件夹,选择需要插入的图片,然后在菜单右下角的地方(有个下三角符号)选择“插入”或“连接文件”。如果使用“连接文件”方式插入,doc文档会记住插入图片的路径和文件名,当有同名的图片把该路径下的图片覆盖,doc文档会自动更新。
1.2.2 工具转化法
使用Office2003自带的工具转换
1. 首先使用Adobe Reader打开待转换的PDF文件,接下来选择“文件→打印”菜单,在打开的“打印”设置窗口中将“打印机”栏中的“名称”设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。
2. 如果在“名称”设置的下拉列表中没有找到“Microsoft Office Document Image Writer”项,那证明你在安装Office 2003的时候没有安装该组件,请使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件。
3. 运行 Microsoft Office Document Imaging,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,并在弹出的窗口中勾选“在输出时保持图片版式不变”,确认后系统提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,确认即可。
总结:该方法不需使用多余的工具,操作步骤少。但是,它的文字识别率很低,丢失东西比较多,格式会变得很混乱,转化后的doc文档错误百出、惨不忍睹。所以,在有更好的条件的情况下,不推荐使用该方法。
ScanSoft PDF Converter for Microsoft Word
它是由ScanSoft公司和微软共同组队开发的一个Word的插件,它可以让你在没有Adobe Acrobat软件的情况下,将PDF文档转化为Word文档。它首先捕获PDF文档中的信息,分离文字、图片、表格和卷,再将其统一到Word格式,并且基本上完全保留原来的格式和版面设计。所以它的转化效果是比较理想的了,但是软件比较大(我当初用的版本有200MB左右,现在似乎小了不少,但是我没有再用过它),而且转化速度比较慢。
该软件安装完成后,会自动嵌入到word中。如果没有嵌入,可以在word工具栏的空白处单击鼠标右键,将它打勾选择。
它可以作为单独的软件启动,也可以在word界面中启动。它的转化方法如下:
1. 在Word界面,直接通过“文件”—>“打开”来打开需要转化的PDF文件。
2. 此时插件会自动弹出,在分析完PDF文件后即可自动转换成DOC格式的文档。
总结:在以前的使用过程当中,我发现它的转化效果很理想。比如,把一篇doc文档转换为pdf之后,用它转换为doc;然后又把它转换为pdf,再转换为doc;如此反复多次之后,doc文档的资料丢失率很低,版面保持得不错,不是很乱。所以,它是比较理想的转换工具。但是对于纯的图片形式的pdf好像也无能为力了,我想这里还是要用到图像识别技术才能很好的完成了。(写出这样的软件也是很有前途的!)
下载地址(迅雷下载):http://mdl1.mydown.com/soft1/200510/ScanSoft_PDF_Converter_v2.0.KG.rar
PDF 2 Word
PDF 2 Word是一个独立运行的小软件,而非插件。
它的版本很多,有的版本不需要安装,直接运行exe程序后,在软件界面中选择pdf、设置doc输出路径即可。
总结:它在载入比较大的pdf文件时会稍慢一些,转换速度非常快,对于图片和文档格式的识别不是很好。转化后,文字基本保持格式,且都是在文本框当中;图片则会有些错位,不好进行设置,且容易和带文字的文本框重叠。但是,它基本很少丢失东西,对于这样小巧玲珑的软件,这就不错了。
下载地址:http://www.crsky.com/soft/9236.html
pdf文档转化为doc文档 (转载)相关推荐
- 把grb2文档转化为nc文档,并使用matlab查看
把grb2文档转化为nc文档,并使用matlab查看 目前在做笔记,怕忘了,加个笔记. 第一步,下载个wgrib2文件.下面是网址和路径. https://ftp.cpc.ncep.noaa.gov/ ...
- java doc转换docx_JAVA - 将doc文档转为docx文档
因为项目需要解析文档,而且 doc 文档还不少,全网能找到的靠谱的解析doc甚至是将doc转txt的方案实际上不多.这个是部分文件统计 .Net 和 java 有一个收费的解决方案,但是我确实没钱sp ...
- 【ES笔记01】ElasticSearch数据库之index索引、doc文档、alias别名、mappings映射结构的基本操作
这篇文章,主要介绍ElasticSearch数据库之index索引.doc文档.alias别名.mappings映射结构的基本操作. 目录 一.索引index相关操作 1.1.创建索引 1.2.查询索 ...
- java 将doc格式的文档转化为pdf格式(实现Word文件预览)
doc格式的文档要实现预览功能,首先要将文档转化为pdf格式的文档 doc文档转pdf文档步骤 导入jar包 将aspose-words-jdk16-14.6.0.0.jar包导入项目中: 创建一个格 ...
- Python 技术篇-利用Office VBA实现word文档转化为pdf文档实例演示
# -*- coding: UTF8 -*- from win32com.client import *def switch_pdf(path, name):'''作用:将word文档转化为pdf文档 ...
- 使用java对html源代码(拼装、可获取页面源代码)转换为(html页面,doc文档文件,pdf格式),doc文件转换成为pdf,文件的删除、压缩功能
目录: 1.转换成为html页面 2.html源代码转换成为doc文件 3.html源代码转换成为pdf文件 4.压缩多个文件成为一个zip文件 5.对文件进行删除 实施过程: A.html页面的实现 ...
- python利用win32com实现doc文档转为pdf文档的功能
1.首先,必须去安装相关的库,使用命令:pip install pypiwin32,接下来是主要代码: import win32com.client import pythoncomclass Wor ...
- 前格式 直接将转换为当_如何将word转化为PDF格式?1分钟学会文档转换
如何将word转化为PDF格式?不知道大家在学习和工作中有没有遇到过文件转换的问题,基本上所有的人在使用了各种数据文档后,都有为了文档格式转换而发愁的,因此这里重点给大家介绍一些文件转换的工具和方法, ...
- 使用java将word文档docx,doc(包含图形,文本框)完美转换成所有格式图片(pdf,png,gif,jpeg等等)
使用java将word文档docx,doc(包含图形,文本框,图片等)完美转换成所有格式图片(pdf,png,gif,jpeg等等)下文中附带代码,效果图等 思路 使用到的包 实现代码 效果图: 思路 ...
最新文章
- Aerospike系列:5:安装AMC
- 内存对齐与sizeof
- python绘制3d图形-万万没想到,Python 竟能绘制出如此酷炫的三维图
- Web 趋势榜:上周最热门、又实用的 10 大 Web 项目 - 210813
- .net core webapi 列表返回指定的字段_ADO.NET 使用初探之SQL操作 | C# 数据操作系列...
- 经典数字信号处理图书的个人评述【转】
- 为什么程序员老在改 Bug,就不能一次改好吗?
- 计算机设备财产登记册,幼儿园财产登记制度
- w3school离线手册
- 自己来制作iso镜像用于安装OpenBSD
- 银行代收代付代扣业务
- 微博技术架构分析和设计
- C#编程_实现简易的任务管理器
- docker 安装 onlyoffice
- 黑得漂亮!SyScan360黑客大会展示17秒攻陷IE
- 7-14 然后是几点 (15分)
- Thirteen Days 邻接表及广度优先遍历
- 网页版音频播放器,歌词随音乐而动
- 海思 hikey970 开发板简介
- linux 中etc全拼,英语中“等等”缩写成为etc.吗?要加一点吗?全拼是...
热门文章
- (五)通过pygame搭建游戏框架
- Kotlin - 改良策略模式
- 在linux下 用户的密码错误,linux中root用户密码错误如何解决
- 12.Linux 网络配置
- Requests: 1, Fetched: 0, Skipped: 0, Processed: 0
- 淘宝客订单同步,关联私域授权用户,给用户返分,流程是如何串起来的
- KSO-vue创建项目以及安装npm与node
- mathtype试用期到后继续使用
- php中baseasset,放映员资料库 ~ 影院之家 | The projectionist database - CineAsset 5.2.11 for Win 下载...
- 不重视,小程序将会带来大风险!——三大风险、隐私合规,小程序主该如何面对?