最近需要将一份很长的英文合同翻译成中文,足足有80页,o(╯□╰)o,虽然近期一直在强化英语口语,但英语以及翻译并不是自己的强项,加之合同内容专业性很强,面对这个时间紧任务重的差事真的是头大了。时间又紧迫,怎么办?因为只是将翻译内容拿给非专业的人看一看,不具备法律效力,所以只能先借助翻译软件翻译个大概了。

扫描版的pdf,没法选择复制粘贴,这一点很麻烦。那就用pdf阅读器自带的转word功能吧,但实际操作效果发现识别成功率很低,错误乱码非常多。这个时候查到一种叫OCR(Optical Character Recognition)光学字符识别的功能,对于识别扫描版dpf貌似比较有效。网上找了一款叫迅捷pdf转换器的软件,但是非VIP会员最多只能利用OCR转换5页。实际效果不确定的情况下不想交钱办VIP,于是先借助别的工具把80页的pdf拆分成5页一份的十几个pdf文档,这类工具比较多,也有在线拆分的,非常方便。之后把拆分后的十几个pdf文档用迅捷pdf转换器的扫描pdf转word(OCR)功能进行转换,发现转换效果确实有提升,少了很多的乱码。

于是开开心心地准备用word2013自带的翻译功能进行英译汉转换(可以自行百度如何在word中设置翻译选项),但是竟然失败了。what the F***。

仔细检查发现,迅捷pdf转换器识别率虽然确实很高,但有个问题就是生成的word文档中全都是一个个的文本框。问题应该出在这里。

这个就有点蛋疼了,因为常规操作很难同时提取多个文本框的内容,网上搜到一种提取办法是在查找中利用通配符“?”进行全选(https://jingyan.baidu.com/article/ceb9fb10da00d98cac2ba065.html),但试验发现这种办法对去文字量很少的文本框或许还可以,而当文字量很多的时候非常耗时,也很容易卡死。因为它是按照一个个字符去选择的。

另一种方法是在word文档中全选,然后复制,打开写字板,在写字板进行粘贴。然后再在写字板里复制,再粘贴到word中。这样也会存在一个问题:就时行与行之间都多了一个换行符。且排序变得错乱毫无规律。

继续再想办法吧,突然灵光一现:那我要是把这份带很多文本框的word文档先转为pdf,之后再将该pdf转回为word,是不是就可以去掉所有的文本框了呢?

实际操作了一下,果然有效。没有多余的文本框,没有多余的空格回车等等,看上去干净清爽多了。

注意,这一步如果使用在线pdf转word,可能会出现生成的word文档每一行后面都有换行符,这样会降低自动翻译的准确率。实测使用Adobe Acrobat DC将pdf转成word的话,会显著减少每行最后换行符的数量。

转换后得到的pdf文档

pdf再次转换后得到的word文档

原始扫描版pdf文档

于是到这一步,已经可以得到比较清晰的pdf版或word版文档了,如果前面利用OCR识别成功率很高的话,最终效果还是不错的。

如何将不清晰的扫描版pdf转为清晰的pdf或word相关推荐

  1. 关于pdf文档无大纲的若干解决办法(扫描版书籍/ppt转的pdf)

    关于pdf文档无大纲的若干解决办法(扫描版书籍/ppt转的pdf). girhub 开源pdf-bookmark项目解决大纲问题 使用条件 特点 使用Adobe Acrobat搭配AutoBookma ...

  2. 怎么把pdf转为html?PDF转HTML转换器推荐

      大家知道HTML格式吗?我们通常上网浏览的网页就是HTML格式.而PDF格式是我们常用的一种文件格式,在不同的设备上打开,既不会影响到PDF内容的排版,也不容易被修改.在工作中,有时为了查看PDF ...

  3. 如何将模糊的扫描版pdf转为清晰的pdf或word_pdf问题小结

    20220109 pdf拆分 不要点提取页面为单独文件 这样会提取出完整的一个文件 而如果选了的话会全部拆分成一页一页 20220107 # code=utf-8 import os import t ...

  4. PHP将PDF转为TXT文件,pdf转中文txt,pdf中文txt

    pdf转中文txt,pdf中文txt 最近项目需要实现根据关键字搜索pdf内容,实现思路就是提取pdf文本,然后进行索引. 工具上选择: IText 4.16之后采用agpl License,不能用作 ...

  5. java pdf 转换 word_Java 将PDF 转为Word、图片、SVG、XPS、Html、PDF/A

    本文将介绍通过Java编程来实现PDF文档转换的方法.包括: 1. PDF转为Word 2. PDF转为图片 3. PDF转为Html 4. PDF转为SVG 4.1将PDF每一页转为单个的SVG 4 ...

  6. Java 将PDF 转为Word、图片、SVG、XPS、Html、PDF/A

    本文将介绍通过Java编程来实现PDF文档转换的方法.包括: 1. PDF转为Word 2. PDF转为图片 3. PDF转为Html 4. PDF转为SVG 4.1 将PDF每一页转为单个的SVG4 ...

  7. 《Div+CSS 3.0网页布局案例精粹》扫描版[PDF]

    电驴资源 下面是用户共享的文件列表,安装电驴后,您可以点击这些文件名进行下载 [Div.CSS.3.0网页布局案例精粹].王大远.扫描版.rar详情 53.7MB 全选 53.7MB 下载地址(拷贝到 ...

  8. 扫描版模糊pdf优化方法

    扫描版模糊pdf优化方法 前言 扫描版的 pdf 文件,是学习生活非常常见.但是由于 pdf 文件制作水平良莠不齐.有时 pdf 文件显得模糊不堪,严重影响阅读心情,那么该如何优化这样的 pdf 文件 ...

  9. 索骥馆-编程语言之《算法引论-一种创造性方法》扫描版[PDF]

    内容介绍: 本书是国际算法大师乌迪·曼博(UdiManber)博士撰写的一本享有盛誉的著作.全书共分12章:第1章到第4章为介绍性内容,涉及数学归纳法.算法分析.数据结构等内容:第5章提出了与归纳证明 ...

  10. 网页设计与开发:HTML、CSS、JavaScript实例教程 (郑娅峰) pdf扫描版

    网页设计与开发:HTML.CSS.JavaScript实例教程从实用角度出发,详细讲解了HTML.CSS和JavaScript的基本语法和设计技巧,通过一个实用的班级网站的规划.设计.实现到发布过程, ...

最新文章

  1. 【剑指offer-Java版】27二叉搜索树与双向链表
  2. Flash Communication Server笔记一
  3. python输出变量代码_Python中变量的输入输出实例代码详解
  4. qt5 linux 控制台 乱码,qt5.12 解决显示中文乱码问题
  5. linux集群搭建coolrainbow,Rainbow°110408_教程▍KBFS听歌学韩语—So Cool[Rainbow]
  6. mysql数据库连接_mysql数据库连接池配置教程
  7. pycharm如何汉化
  8. postgresql 重启记录_PostgreSQL 高可用:PostgreSQL复制和自动故障转移
  9. locate用主动还是被动_已婚女人VS未婚女人,你觉得女人是应该主动出击还是被动接受?...
  10. html 时钟怎样居中,怎么用css3做时钟刻度
  11. 507 LOJ 「LibreOJ NOI Round #1」接竹竿
  12. 学前端整理的前端常用代码,希望会对大家有用
  13. 白盒测试用例设计方法
  14. BPF BTF 详细介绍
  15. 不谋一时不足以谋一域_请问不谋万世者不足谋一时,不谋全局者,不足谋一域,接下来是什么?这段话太精辟了,能不能把全文发送过来?...
  16. 国内各大高校开源镜像站
  17. PET——文本分类的又一种妙解
  18. guns框架分页实现
  19. Linux VRF(Virtual Routing Forwarding)的原理和实现
  20. 自学前后端分离1 Spring Boot+Vue概述

热门文章

  1. 数字电子技术基础(四):门电路(TTL)
  2. 如何设计沉浸式游戏引导界面?你要知道的七大点
  3. 课程学习评价系统设计与实现
  4. 一种解决各种 macos unlocker 无法下载 Darwin.iso 的方法
  5. 安全跑路指南2013之乌云版
  6. 数据提取软件----GetData
  7. php mysql apache vbb
  8. 已知弧长计算器_科学计算器,怎么用弧度计算弧长,请知道的举例说明,
  9. Python安装Talib库
  10. 华硕笔记本linux触摸板驱动,华硕笔记本触摸板驱动安装教程及打开方法