各种识别软件对电子图书馆文章的识别各有缺陷,有的只能识别字,对表格和图形无能为力;有的识别后生成的版面乱七八糟,无法使用。还在为不同格式的文件怎么变成Word文件发愁吗?现在好了,本文给出了所有情况下全文件表格、图形、文字识别的完美解决方案,帮助大家掌握正确方法,节省时间:

1、PDF文件的识别

1)文件可以直接识别的(以文本形式保存的PDF文件):安装acrobat 7专业版,注意不是acrobat reader,直接另存为rtf文件(识别整个文件),或者选择工具栏上的文字选择按钮,然后选择文字区域,然后复制到Word等中。

2)文件不能直接识别的(以图片形式保存的PDF文件):安装office2003,并装上office工具Microsoft Office Document Imaging(完全安装此工具),然后在打印机里面会增加Microsoft Office Document Image Writer打印机,然后将PDF文件打印到此打印机,选择打印形成的文件的保存位置,然后会自动形成一个MDI文件,并且自动用Microsoft Office Document Image打开此文件,然后选择“工具”菜单下的“使用ocr识别文本”,识别完成后,在选择“工具”下的,“将文本发送到Word”,最后将把整个PDF文件识别输出到Word文件中。

注意:Microsoft Office Document Image可以非常准确的全文件识别转化中文、英文、表格,但是无法将图形输出到Word,而是把文件中的所有图形单独形成一个个独立的图片文件,放在相同位置的一个相同名称的文件夹中,因此可用snagit软件将图形打开,然后复制到Word中。(所有的识别软件都不能很好的处理图形的识别问题,Microsoft Office Document Image的这种处理方法已经是非常好的解决这个问题了。)

3)加密的Pdf文件:先下载解密软件,解密后在参看1),2)

4)繁体pdf文件:用2)的方法识别到Word后,用Word中的“工具”--“语言”---“中文繁简转换”

2、caj文件的识别:

1)局部文字识别:直接使用caj浏览器的ocr

2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样

3)博硕论文全文下载:在线阅读博硕论文,待可以看到最后一页后,不要关闭caj浏览器,到caj安装目录下cache中找到一个较大的文件,拷贝到其他位置即可。然后使用2)全部转化为Word。

3、超星文件的识别:

1)局部文字识别:直接使用超星浏览器的ocr

2)全文件识别:打印到Microsoft Office Document Image Writer打印机,后面和上面的2)操作一样,要注意的是,超星打印功能有点区别,因为超星是目录和全文分开的,所以打印时,需要分别把目录和正文识别到Word中,在合并到一起。打印时要填入打印页码从1到最后一页,不要选择打印全部。此外在打印选项中,还要将页面比例设成真实大小,而不是整宽。注意:识别速度比其他格式要慢很多,请保持耐心,但是最后当你看到轻松的生成全本书的Word版本时,你会欣喜若狂的,呵呵。我的试验结果是一本280页的书,识别需要几分钟的时间。

3)超星相对比较麻烦一些,如果还有问题,可以先把超星打印成完整的pdf文件,然后在用1、的方法转成Word

4、其他情况下的识别:

使用snagit软件将任何形式的文字可以变成图片,例如使用snagit将屏幕拷贝成图片,然后右键点击图片文件,用microsoft Office Document Image打开图形,其他和2)一样。

注意:其他的各种识别软件请不要在用,因为要么只能识别中文,要么只能识别英文,要么不能识别整个文件,要么不能识别屏幕拷贝图像,要么识别误差很大,要么不能识别表格,要么需要注册,要么识别速度很慢,要么使用不便(和Word结合不紧),这些软件包括:紫光ocr,万方pdfocr,尚书,汉王,ScanSoft PDF Converter,pdf2Word,以及各种被推荐的软件等等,我都装过,现在都像LJ一样删除了。只要安装了acrobat 专业版,snagit,office2003,现在你可以完美的做任何事,最重要的是这几个软件很好得到。

各种电子图书馆文章转为Word文档的方法相关推荐

  1. 各种电子图书馆文章(PDF、PDG、CAJ)转为Word文档的方法

    各种识别软件对电子图书馆文章的识别各有缺陷,有的只能识别字,对表格和图形无能为力:有的识别后生成的版面乱七八糟,无 法使用.还在为不同格式的文件怎么变成Word文件发愁吗?现在好了,本文给出了所有情况 ...

  2. Vue+ElementUi 项目中 将页面内容转为 Word文档下载

    Vue+ElementUi 项目中 将页面内容转为 Word文档下载 需要提前做好的现成模板(魔板个页面基本上相同的内容)-模板内有变量,替换成页面对应的数据 HTML页面: 转换的word 以下是正 ...

  3. java 达梦数据库结构 转为word文档

    文章目录 前言 一.spring boot 适配达梦 1. 手动引入达梦jdbc驱动包,复制jar包到resources的lib目录下 2. pom.xml中增加依赖,打包插件添加配置 3. appl ...

  4. 用python将图片转为word文档

    昨天突发需求要打印一张图片上的文档,图片拍太昏暗,完全不具有可读性,于是想试试转为word文档,编辑以后再打印,百度了一下,找到了一个大神的文档"使用python在实现图片(包括扫描件的图片 ...

  5. 批量将 PDF 转为 Word 文档,支持 Docx、Doc 格式

    概要:PDF 和 Word 这两种格式是非常常见的,并且相互之间也经常需要进行格式转化.Word 转 PDF是非常容易就能做到的,但是 PDF 转 Word 就经常会碰到各种各样的问题,比如格式错乱. ...

  6. php导出doc文件_PHP生成Word文档的方法

    PHP生成Word文档的方法 首先,请确保在你的Windows系统中已经安装并配置好了一个典型的WAMP环境.由于Interop纯粹是一个Windows的特性,我们将在Windows平台下搭建Apac ...

  7. c语言如何自动生成word,C语言读取word文档的方法

    C语言读取word文档的方法 第一种方法: 复制代码 代码如下: Response.ClearContent(); Response.ClearHeaders(); Response.ContentT ...

  8. 在HDWiki中插入word文档的方法

    HDWiki是中国第一家拥有自主知识产权的中文WIKI系统,它的功能十分强大,而且设计也很合理,现在也十分受欢迎,但美中不足的就是HDwiki的排版功能,文章排版后效果很差. 在此介绍一种在HDWik ...

  9. 文字图片转换成word文档的方法?

    在很多情况下,我们都想把图片上的文字转成word文档文字,但是由于没有好的方法,能不转换的就不转换,比如说图片上的文字比较少,通常的做法就是手动输入到word文档中,要是图片上的是文章,在没有必要的情 ...

最新文章

  1. Unity 4.x游戏开发技巧集锦(内部资料)
  2. 快速写出较好CSS的5种方法
  3. draw.io二次开发(1)三种运行模式的区别
  4. 使用python处理实验数据-yechen_pro_20171231
  5. 定理在数学中的简写形式_西方把勾股定理叫毕达哥拉斯定理,我们的教材上是不是该改改名?...
  6. shell:syntax error:unexpected end of file/Starting proxy www-balancer: cannot bind socket--转载
  7. java对象是 什么的集合_java持有对象-集合类
  8. SpringMVC的数据响应-页面跳转-返回ModelAndView3(应用)
  9. Linux C高级编程——网络编程基础(1)
  10. linux svn 备份脚本,SVN热备份脚本
  11. ORA-01919: role 'OLAPI_TRACE_USER' does not exist
  12. 7-33 出生年 (15 分)
  13. android 图片方向,Android图片处理:识别图像方向并显示
  14. python中模块导入问题(已解决)
  15. 用C#实现图片数据库存储与显示
  16. 快速获得CSDN积分的技巧
  17. 网易云音乐的焦虑 暗藏在上市后的首份财报里
  18. 编译报错:/usr/bin/ld: /usr/local/lib/libgflags.a(gflags.cc.o): relocation R_X86_64_32S against `.rodata‘
  19. 无效镜像问题image has dependent child images
  20. web前端网页制作课作业:使用HTML+CSS技术制作中华传统文化网站【文房四宝】学生网页设计作品 简单静态HTML网页作品

热门文章

  1. 银联支付-java版(亲测OK)
  2. lo4j2.xml 配置文件
  3. android contentprovider作用,Android ContentProvider基本使用
  4. 微软认证BI专家雷元带你全面搞定Power BI数据分析
  5. 绩效考核 :KPI,KSF 等模式的比较
  6. TotalRecorder 5.3 版及其插件包发布
  7. 2022年计算机一级考试MS Office复习题及答案
  8. 英语学习得六大黄金原则
  9. 局域网服务器发送消息,Java实现简单局域网聊天室
  10. 《人民的名义》---简单的文本分析