python从pdf文件中提取文本,并自动翻译
针对Python 3.5.2 测试
首先安装两个包:
$ pip install googletrans
$ pip install pdfminer3k
googletrans会提供一个命令translate,这个命令会调用google translate api执行自动翻译:
pdfminer3k会提供一个工具脚本pdf2txt.py:
$ pdf2txt.py xxx.pdf
从stackoverflow搜索到可以去除页眉和页脚的命令(强烈推荐):
使用Ubuntu提供的pdftotext工具:
$ pdftotext -y 50 -H 650 -W 1000 -nopgbrk sva.pdf
$ pdftotext -f 147 -l 166 -y 50 -H 650 -W 1000 -nopgbrk sva.pdf
谷歌翻译并不能识别段落或者整句,如果一个整句中出现换行符,会发现翻译就不完整了,以网页版谷歌翻译测试:
因此需要将pdf转换好的文本文件进行拼接,借用linux args 命令,实现此功能,将整个文件的换行符全部去掉。
但是问题又出现了,整个文件变成一行,我们的段落结构都消失了,那么我们需要手动添加delimiter,设置为一个特殊字符@。
执行如下命令:
cat trans_src.txt |xargs |xargs -0 -d '@' -i{} translate -d zh-cn {} |tee trans_dst.txt
cat sva_src_1to2.txt |xargs |xargs -0 -d '&' -i{} translate -d zh-cn {} |xargs -d'\n' -n4 | awk -F'zh-cn' '{print $2}' | awk -F'[][]' '{print $2}' | tee sva_dst_1to2.txt
将翻译后的文本重定向到一个文件,然后对文件进行简单的后处理,就可以了。
python从pdf文件中提取文本,并自动翻译相关推荐
- python自动翻译pdf_python实现从pdf文件中提取文本,并自动翻译的方法
针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...
- python用来自动修改pdf_python实现从pdf文件中提取文本,并自动翻译的方法
针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...
- python从PDF文件中提取文本和文本坐标
1. 行/段 from pdfminer.pdfpage import PDFPage from pdfminer.pdfinterp import PDFResourceManager from p ...
- gnuradio上怎么使用python文件_使用Python从PDF文件中提取数据
前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
- 使用Python从PDF文件中提取数据
前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
- java 取pdf 文本域_java – 使用iText从pdf文件中提取文本列
我需要使用iText从pdf文件中提取文本. 问题是:一些pdf文件包含2列,当我提取文本时,我得到一个文本文件,其中列被合并为结果(即同一行中两列的文本) 这是代码: public class pd ...
- java pdfbox 提取pdf 标题_java – 使用pdfbox从PDF文件中提取文本
我试图使用pdfbox从PDF文件中提取文本,但不是作为命令行工具,而是在我的 Java应用程序中.我正在使用jsoup下载pdf. res = Jsoup .connect(host+action) ...
- android提取pdf中文字,使用iTextG從Android上的pdf文件中提取文本
當我試圖從SD卡中讀取pdf文件並從中提取文本時,什麼也沒有發生. 沒有錯誤,沒有警告,通知,也沒有結果文件. 我將源文件和結果都存儲在設備的SD卡的根文件夾中. 你們能幫我解決這個問題嗎? 這裏是我 ...
- pdf怎么查看坐标 python_如何从PDF文件中提取文本和文本坐标?
下面是一个复制粘贴就绪的示例,它列出了PDF中每个文本块的左上角,我认为对于任何不包含包含包含文本的"Form XObjects"的PDF,它都应该适用:from pdfminer ...
最新文章
- linux内核oom,linux OOM killer分析
- 利用ngxtop实时监控nginx的访问情况
- Java线程:新特征-条件变量(转)
- java 基本类型之间的转换
- 从JVM看类的加载过程与对象实例化过程
- c语言线程面试题,java多线程面试题 PDF 下载
- 信息学奥赛一本通(C++)在线评测系统——基础(一)C++语言——1095:数1的个数
- VMware克隆centos系统后不能识别eth0
- (35)SystemVerilog语言编写呼吸灯
- 计算机签到程序,基于spring boot技术的签到管理系统的设计与实现计算机专业.doc...
- 《数据库原理》— 数据库系统概论第五版习题解析
- java习题5参考练习及答案_JAVA练习题(第5章).ppt
- 概率论与数理统计(3)--指数分布函数及其期望、方差
- 斐波那契数列(矩阵快速幂)
- 统一诊断服务(UDS) - 诊断会话控制(Diagnostic Session Control)
- arcgis注记详解
- 《白帽子讲Web安全》8-文件上传漏洞
- rc时间常数定义_低通滤波中RC时间常数设定,我是这么思考的
- 解决C盘存储空间不足
- Communication error with Jack server , try ‘jack-diagnose‘ or see Jack server log 报错解决办法