各种识别软件对电子图书馆文章的识别各有缺陷,有的只能识别字,对表格和图形无能为力;有的识别后生成的版面乱七八糟,无 法使用。还在为不同格式的文件怎么变成Word文件发愁吗?现在好了,本文给出了所有情况下全文件表格、图形、文字识别的完美解决方案,帮助大家掌握正确 方法,节省时间:

  1、PDF文件的识别
1)文件可以直接识别的(以文本形式保存的PDF文件):安装acrobat 7专业版,注意不是acrobat reader,直接另存为rtf文件(识别整个文件),或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到Word等中。
2)文件不能直接识别的(以图片形式保存的PDF文件):安装office2003,并装上office工具 Microsoft Office Document Imaging(完全安装此工具),然后在打印机里面会增加Microsoft Office Document Image Writer打印机,然后将PDF文件打印到此打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用Microsoft Office Document Image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到Word”,最后将把整个 PDF文件识别输出到Word文件中。
 注意:Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到Word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相 同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到Word中。(所有的识别软件都不能很好的处理图形的识别问 题,Microsoft Office Document Image的这种处理方法已经是非常好的解决这个问题了。)
3)加密的Pdf文件:先下载解密软件,解密后在参看1),2)
4)繁体pdf文件:用2)的方法识别到Word后,用Word中的“工具”--“语言”---“中文繁简转换”
 2、caj文件的识别:
1)局部文字识别:直接使用caj浏览器的ocr
2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样
3)博硕论文全文下载:在线阅读博硕论文,待可以看到最后一页后,不要关闭caj浏览器,到caj安装目录下cache中找到一个较大的文件,拷贝到其他位置即可。然后使用2)全部转化为Word。
  3、超星文件的识别:
1)局部文字识别:直接使用超星浏览器的ocr
2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样,要注意的是,超星打印功能有点区别,因为超星是目录和全文分开的,所以打印时,需要分别把目录和正文识别 到Word中,在合并到一起。打印时要填入打印页码从1到最后一页,不要选择打印全部。此外在打印选项中,还要将页面比例设成真实大小,而不是整宽。注 意:识别速度比其他格式要慢很多,请保持耐心,但是最后当你看到轻松的生成全本书的Word版本时,你会欣喜若狂的,呵呵。我的试验结果是一本280页的 书,识别需要几分钟的时间。
3)超星相对比较麻烦一些,如果还有问题,可以先把超星打印成完整的pdf文件,然后在用1、的方法转成Word
  4、其他情况下的识别:
使用snagit软件将任何形式的文字可以变成图片,例如使用snagit将屏幕拷贝成图片,然后右键点击图片文件,用microsoft Office Document Image打开图形,其他和2)一样。
注意:其他的各种识别软件请不要在用,因为要么只能识别中文,要么只能识别英文,要么不能识别整个文件,要么不 能识别屏幕拷贝图像,要么识别误差很大,要么不能识别表格,要么需要注册,要么识别速度很慢,要么使用不便(和Word结合不紧),这些软件包括:紫光 ocr,万方pdfocr,尚书,汉王,ScanSoft PDF Converter,pdf2Word,以及各种被推荐的软件等等,我都装过,现在都像LJ一样删除了。只要安装了acrobat 专业版,snagit,office2003,现在你可以完美的做任何事,最重要的是这几个软件很好得到。
  针对一些问题的补充:
经过一些试验,发现microsoft Office Document Image 存在一些不稳定的问题,例如在用caj打印到Microsoft Office Document Image Writer打印机时,发现用caj5.5版本比较快,(caj5.5不能加升级补丁),而caj5.0有时出现假死机。
另外页面显示大时,转化的识别率较高。
如果页数多的文件,包括超星,如果有问题,可以分多次转化。
  再次补充:
1、由于虚拟打印到Microsoft Office Document Image Writer 比较慢,并且形成的虚拟文件很大,1本200多页的书大约是60M,因此会严重影响机器的运行速度和C盘空间以及内存空间,建议配置好的机器一次转化不要 超过200页,配置差的不要超过100页,同时打印时在右下角系统栏中会出现打印机图,你可以双击,看到打印任务的进度,以免以为死机了。另外转化完成后 请删除c:\windows\temp目录下的虚拟打印文件,否则你的c盘很快会被用光。
2、建议如果发生打印到Microsoft Office Document Image Writer很慢或者假死的情况,可以先打印到snagit虚拟打印机,会自动生成tiff文件,速度比Microsoft Office Document Image Writer快,然后在snagit中,选择打印机为Microsoft Office Document Image Writer打印机,(相当于再打印到Microsoft Office Document Image Writer打印机),然后选择snagit---outputs下的printer,然后选择snagit----file----finish output,即可生成msi文件,其他一样。转化完成后请删除c:\windows\systems32\snagit临时文件。
原贴:[url]http://soft.yesky.com/office/30/2569030.shtml[/url]
个人补充:
下面是我使用的经验
方法一:(目前超星新书好像已经封了虚拟的功能,采用此法可以,但速度慢得难以忍受)
1。Fineprint Pdffactory Pro 软件一个(各大网站均有下载)
2。点击欲改PDF的超星或CAJ文件打开阅览(超星图书最好打开封面页cov001.pdg),点击"打印",出 现的对话框中打印页数应填整本图书的页数(包括封面页、前言页、目录页、正文页等,可用ctrl+A查看全部页数),点击"确定",选 中"Fineprint Pdffactory Pro "打印。
3。这样打印出来的PDF书中全部包括了封面页、前言页、目录页、正文页等,也 不需要用什么软件合并,那样太麻烦。不过转化后的书应"另存为"某一路径中,否则只有到C:\Documents and Settings\*\My Documents\PDF files\AutoSave中去找了。
方法二:(针对超星可以虚拟打印的书籍,速度超快)
1:直接添加打印机,然后选择一款后面带有PS的打印机,最好选择彩色打印机,比如:HP Color LaserJet 8550-PS,这样就可以打印彩色书籍了,端口只要选择不冲突就行,一路下一步安装结束,就可以使用了
2:打印时选择打印到文件,这时需要输入文件名,自己连路径一起输入,扩展名直接用ps就行,如果没有路径打印出来的文件就在超星的history文件中。
3:然后就可以使用Acrobat Distiller(Adobe Acrobat Professional自带有此软件)转换成PDF文件,速度比其它虚拟打印机快很多

[url]http://lm2000i.bokee.com/viewdiary.15448178.html[/url]

转载于:https://blog.51cto.com/foreach/124986

各种电子图书馆文章(PDF、PDG、CAJ)转为Word文档的方法相关推荐

  1. 各种电子图书馆文章转为Word文档的方法

    各种识别软件对电子图书馆文章的识别各有缺陷,有的只能识别字,对表格和图形无能为力:有的识别后生成的版面乱七八糟,无法使用.还在为不同格式的文件怎么变成Word文件发愁吗?现在好了,本文给出了所有情况下 ...

  2. bin文件怎么转换成文本文档_怎么把pdf文件转换成word文档?这样转很简单

    在日常的学习.工作生活中,小伙伴们总少不了要对文件格式进行转换操作,例如把pdf文件转换成word文档.对于职场老手来说,这当然不算一个难度操作,甚至还很简单.但对于职场新人而言,找不对方法,可能操作 ...

  3. ​PDF如何转换成Word文档?分享两种好用的转换方法

    怎么把PDF文件转换成Word文档呢?大家在工作中相信都会使用这两种格式的 文件,对于这两种格式的文件优劣处大家也很清楚,一个适合用来发送文件,一个适合用来编辑文件,如果我们接收到一份PDF文件,想要 ...

  4. 批量将 PDF 转为 Word 文档,支持 Docx、Doc 格式

    概要:PDF 和 Word 这两种格式是非常常见的,并且相互之间也经常需要进行格式转化.Word 转 PDF是非常容易就能做到的,但是 PDF 转 Word 就经常会碰到各种各样的问题,比如格式错乱. ...

  5. 用python将图片转为word文档

    昨天突发需求要打印一张图片上的文档,图片拍太昏暗,完全不具有可读性,于是想试试转为word文档,编辑以后再打印,百度了一下,找到了一个大神的文档"使用python在实现图片(包括扫描件的图片 ...

  6. Vue+ElementUi 项目中 将页面内容转为 Word文档下载

    Vue+ElementUi 项目中 将页面内容转为 Word文档下载 需要提前做好的现成模板(魔板个页面基本上相同的内容)-模板内有变量,替换成页面对应的数据 HTML页面: 转换的word 以下是正 ...

  7. java 达梦数据库结构 转为word文档

    文章目录 前言 一.spring boot 适配达梦 1. 手动引入达梦jdbc驱动包,复制jar包到resources的lib目录下 2. pom.xml中增加依赖,打包插件添加配置 3. appl ...

  8. 怎么把pdf格式转成word文档?如何将 PDF 转换为 Word

    怎么把pdf格式转成word文档?PDF是运用得很广泛地的办公文档,但是不能编辑,为了方便编辑,需要将PDF转换为word,那么,如何将 PDF 转换为 Word,下面,易我小编会讲解实用的pdf转w ...

  9. pdf怎么转换成word文档呢?

    PDF文件的格式越来越频繁地出现在我们的办公和生活中.虽然Pdf是一个稳定的文档,但是由于PDF文件不能直接对内容进行编辑排版,导致我们需要使用特定的方法将PDF文件转换成可编辑的Word文档.那么p ...

最新文章

  1. mysql 列选项_列未显示在“列”选项卡中(MySQL Workbench)
  2. VTK:检查VTK的版本用法实战
  3. 【C语言】输出半径1到10的圆的面积,当面积值超过100时,停止执行本程序
  4. jwt重放攻击_JWT+ASP.NET MVC 时间戳防止重放攻击
  5. 搭一个简单的接口测试框架
  6. Dubbo使用Sentinel来对服务进行降级与限流
  7. 排队论(Queuing Theory)
  8. IT十年人生过客-二十九-结婚
  9. 蓝队攻击的四个阶段(二)
  10. 阿里云centos7.2部署tomcat10
  11. jsp高校学生宿舍公寓管理系统功能最全
  12. uni-app使用iconfont
  13. Image Projection Network: 3D to 2D ImageSegmentation in OCTA Images 论文阅读笔记
  14. [英文缩写]英文聊天中btw,g2g,ttyl,brb是什么意思?
  15. 21届校招应届生Offer薪资曝光!年薪35万+,严重倒挂老员工是互联网行业常态?...
  16. 小游戏之欢乐吃豆人canvas重制版
  17. TinyWS —— 一个C++写的简易WEB服务器(三)
  18. 微信登陆php后台,关于微信的登录以及PHP后台的实现
  19. 基于s3c6410 otg controller的gadget driver及usb枚举分 析
  20. 计算机中使用四核处理器四内核的主要作用是,四核和双核的区别,处理器四核和双核哪个更好?...

热门文章

  1. 水电站10kV厂用电保护装置改造
  2. 单端与差分的接线方法
  3. steam泰坦之旅dlc_《泰坦之旅:周年纪念版》解禁 支持简中仅需19元!
  4. pgpool-II 4.3 中文手册 - 入门教程
  5. Mac开发之重写NSSlider(比酷狗的播放进度条好看)
  6. 关于MySQL数据库,你需要知道这些
  7. 【Paper Reading】Privacy-Preserving Aggregation in Federated Learning: A Survey
  8. 示波器的作用及使用方法
  9. 计算机产品属于第几类商标,水杯在商标商品和服务区分表中属于第几类商品?...
  10. 错误代码:0x80072EFE,Win11/Win10无法安装.Net Framework3.5(包括.NET2.0和.NET3.0)踩坑总结【半天血泪史】