针对Python 3.5.2 测试

首先安装两个包:

$ pip install googletrans
$ pip install pdfminer3k

googletrans会提供一个命令translate,这个命令会调用google translate api执行自动翻译:

pdfminer3k会提供一个工具脚本pdf2txt.py:

$ pdf2txt.py xxx.pdf

从stackoverflow搜索到可以去除页眉和页脚的命令(强烈推荐):

使用Ubuntu提供的pdftotext工具:

$ pdftotext -y 50 -H 650 -W 1000 -nopgbrk sva.pdf
$ pdftotext  -f 147 -l 166 -y 50 -H 650 -W 1000 -nopgbrk sva.pdf

谷歌翻译并不能识别段落或者整句,如果一个整句中出现换行符,会发现翻译就不完整了,以网页版谷歌翻译测试:

因此需要将pdf转换好的文本文件进行拼接,借用linux args 命令,实现此功能,将整个文件的换行符全部去掉。

但是问题又出现了,整个文件变成一行,我们的段落结构都消失了,那么我们需要手动添加delimiter,设置为一个特殊字符@。

执行如下命令:

cat trans_src.txt |xargs  |xargs -0 -d '@'  -i{} translate  -d zh-cn {} |tee trans_dst.txt
cat sva_src_1to2.txt |xargs  |xargs -0 -d '&'  -i{} translate  -d zh-cn {} |xargs -d'\n' -n4 | awk -F'zh-cn' '{print $2}'  | awk -F'[][]' '{print $2}'  | tee sva_dst_1to2.txt

将翻译后的文本重定向到一个文件,然后对文件进行简单的后处理,就可以了。

python从pdf文件中提取文本,并自动翻译相关推荐

  1. python自动翻译pdf_python实现从pdf文件中提取文本,并自动翻译的方法

    针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...

  2. python用来自动修改pdf_python实现从pdf文件中提取文本,并自动翻译的方法

    针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...

  3. python从PDF文件中提取文本和文本坐标

    1. 行/段 from pdfminer.pdfpage import PDFPage from pdfminer.pdfinterp import PDFResourceManager from p ...

  4. gnuradio上怎么使用python文件_使用Python从PDF文件中提取数据

    前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...

  5. 使用Python从PDF文件中提取数据

    前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...

  6. java 取pdf 文本域_java – 使用iText从pdf文件中提取文本列

    我需要使用iText从pdf文件中提取文本. 问题是:一些pdf文件包含2列,当我提取文本时,我得到一个文本文件,其中列被合并为结果(即同一行中两列的文本) 这是代码: public class pd ...

  7. java pdfbox 提取pdf 标题_java – 使用pdfbox从PDF文件中提取文本

    我试图使用pdfbox从PDF文件中提取文本,但不是作为命令行工具,而是在我的 Java应用程序中.我正在使用jsoup下载pdf. res = Jsoup .connect(host+action) ...

  8. android提取pdf中文字,使用iTextG從Android上的pdf文件中提取文本

    當我試圖從SD卡中讀取pdf文件並從中提取文本時,什麼也沒有發生. 沒有錯誤,沒有警告,通知,也沒有結果文件. 我將源文件和結果都存儲在設備的SD卡的根文件夾中. 你們能幫我解決這個問題嗎? 這裏是我 ...

  9. pdf怎么查看坐标 python_如何从PDF文件中提取文本和文本坐标?

    下面是一个复制粘贴就绪的示例,它列出了PDF中每个文本块的左上角,我认为对于任何不包含包含包含文本的"Form XObjects"的PDF,它都应该适用:from pdfminer ...

最新文章

  1. linux内核oom,linux OOM killer分析
  2. 利用ngxtop实时监控nginx的访问情况
  3. Java线程:新特征-条件变量(转)
  4. java 基本类型之间的转换
  5. 从JVM看类的加载过程与对象实例化过程
  6. c语言线程面试题,java多线程面试题 PDF 下载
  7. 信息学奥赛一本通(C++)在线评测系统——基础(一)C++语言——1095:数1的个数
  8. VMware克隆centos系统后不能识别eth0
  9. (35)SystemVerilog语言编写呼吸灯
  10. 计算机签到程序,基于spring boot技术的签到管理系统的设计与实现计算机专业.doc...
  11. 《数据库原理》— 数据库系统概论第五版习题解析
  12. java习题5参考练习及答案_JAVA练习题(第5章).ppt
  13. 概率论与数理统计(3)--指数分布函数及其期望、方差
  14. 斐波那契数列(矩阵快速幂)
  15. 统一诊断服务(UDS) - 诊断会话控制(Diagnostic Session Control)
  16. arcgis注记详解
  17. 《白帽子讲Web安全》8-文件上传漏洞
  18. rc时间常数定义_低通滤波中RC时间常数设定,我是这么思考的
  19. 解决C盘存储空间不足
  20. Communication error with Jack server , try ‘jack-diagnose‘ or see Jack server log 报错解决办法

热门文章

  1. Windows同一局域网如何文件共享
  2. 浅谈现在完成时被动语态
  3. Android 自定义View 实例2_Clipping Canvas
  4. 梅姨眼中最爱读英国书籍的人竟然是TA?
  5. 【matlab】 隐函数作图函数 ezplot
  6. Go实战--Gorilla web toolkit使用之gorilla/context
  7. 安装ubuntu后必须做的事情(对我而言)
  8. 机器人的自述作文_扫地机器人的自述500字作文
  9. 萌新小白萌新中软实习day7
  10. 学习成绩 =90分的同学用A表示,60-89分之间的用B表示,60分以下的用C表示。(C语言版)