有这样的PDF文件内容:

10.1
El concepto de prefijación. Sus límites
10.1.1
Prefijación y composición
10.1.1a La prefijación es un proceso morfológico por el que se antepone un
morfema, llamado prefijo, a una palabra ya formada (des-hecho, in-dependiente,
pre-disponer) o a un tema latino o griego (§ 11.8.2a), como en a-morfo, in-erte,
pró-fugo. Además de por esta propiedad, estrictamente posicional, los prefijos se ca
racterizan por otros rasgos que los diferencian de los sufijos y que serán analizados
en este capítulo.
10.1.1b En la gramática tradicional se interpretaban ciertos prefijos como preposi
ciones inseparables. Este criterio asimilaba la prefijación a la composición, que es
el procedimiento morfológico por el que se integran dos o más formas independien
tes en una misma palabra (§ 1.3.2a y capítulo 11). Sin embargo, solo algunos prefijos
cuentan con preposiciones homónimas (ante-, bajo-, con-, de-, entre-, para-, sin-,
sobre-), e incluso estos se comportan de manera diferente como unidades morfológi
cas que como piezas sintácticas. En la gramática contemporánea se tiende a interpretar
la prefijación como una forma de derivación.
10.1.1c No siempre resultan claras las diferencias entre la composición y la prefi
jación. Las bases léxicas grecolatinas que se suelen denominar elementos compo
sitivos poseen un estatuto intermedio entre las formas ligadas y las libres. Estas
bases compositivas cultas pueden constituir el primer componente de la palabra,
y se asimilan en esto a los prefijos ( filocomunista, logopedia), pero se diferencian de

1. 需要用Python 识别出PDF文件中的段落

2. 或者用正则把序号找到、总之就要分割出段落

3. 把每个段落中所有斜体字符(如filocomunista, logopedia)都要用索引符号XXX替换,避免在翻译引擎中翻译。比如preposiciones homónimas (ante-, bajo-, con-, de-, entre-, para-, sin-, sobre-), 就要变成preposiciones homónimas (XXX),因为斜体的内容在翻译引擎中不翻译

4. 处理好的段落发到DeepL引擎中翻译

5. 把索引符号替换的地方,用原文替代回去

6. 把翻译好的段落,新建pptx演示文稿,每页一段,做成外语-中文对照

现在难点是:

1. 我用pdfminer的page.extract_text()识别,都是整页文字,不知道怎么划分出原文的段落

2. 怎么用正则找到序号,像是(33.3.1a),然后按照找到的正则匹配,分割段落?

3. 怎么运用DeepL引擎翻译?

4. 怎么添加到pptx幻灯片中,按照每段一页的方式,自动生成幻灯片。如果不行,加到docx中,再把docx转换成pptx也行。

求助:Python识别PDF段落和翻译的问题相关推荐

  1. python识别pdf文字_Python 神工具包!翻译、文字识别、语音转文字统统搞定

    今天给大家介绍一款 Python 制作的实用工具包,包含多种功能: 音频转文字 文字转语音 截图 OCR文字识别 复制翻译 举个例子,比如截图 OCR 文字识别就有很多实用场景. 常会遇到有些 PDF ...

  2. UIPATH 结合 Python 识别 PDF 中的表格

    工作中遇到的需求: 采购文档在用友U8中打印出来后, 识别表格并把表格内容附在邮件内容中发送给对应采购人员 摘录一下关键点. 首先, 我用的 Python 脚本如下: import pdfplumbe ...

  3. Python识别pdf表格

    import pdfplumber import pandas as pdpath = '/Users/wecash/Desktop/000001.pdf'if __name__ == '__main ...

  4. 用Python实现复制英文PDF段落后自动去掉换行连字符

    大家好,我是辰哥~ 今天给大家分享一个Python自动化的小技巧: 复制英文PDF段落自动去掉换行字符 问题描述:复制外文文献或者外文pdf段落内容时,出现很多的换行字符等. 本文来自读者投稿 作者博 ...

  5. python处理pdf实例_Python程序图片和pdf上文字识别实例

    实例一:先减少背景杂音,再做图片文字识别 为了提高识别率,先用opencv-python对扫描的图片做预处理(减少背景杂音),然后调用pytesseract识别图片上的文字.处理方式就是: 学习Pyt ...

  6. python解析pdf,读取文字,可识别两栏pdf等

    python解析pdf,读取文字,可识别两栏pdf等 一.解析我们的pdf文件,首先第一步是解析普通类别的pdf(只有一栏) 代码中包含注释(不懂得可以留言) 二.处理拥有两栏等类型的pdf 为什么要 ...

  7. python英文文本分析和提取_python如何提取英语pdf内容并翻译

    本文实例为大家分享了python提取英语pdf内容并翻译的具体代码,供大家参考,具体内容如下 前期准备工作: 翻译接口: 调用的是百度翻译的api(注册后,每个月有2百万的免费翻译字符数.) pdfm ...

  8. python读取pdf文件_深入学习python解析并读取PDF文件内容的方法

    这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...

  9. 手把手教你如何用Python从PDF文件中导出数据(附链接)

    作者:Mike Driscoll :翻译:季洋:校对:丁楠雅 本文约4000字,建议阅读10分钟. 本文介绍了在提取出想要的数据之后,如何将数据导出成其他格式的方法. 有很多时候你会想用Python从 ...

  10. 8、【办公自动化】Python实现PDF文件的批量操作

    说明 平时工作中,经常会和 PDF 文件打交道,比如,合并.拆分.加解密.添加和去除水印.提取指定内容.转换成其他文件格式等操作.如果只是处理单个 PDF 文件的话,有些操作是比较简单的,而如果需要批 ...

最新文章

  1. CentOS 6 无法上网 问题解决方案[VMware]
  2. 宋体节点hdoj 1520 Anniversary party(树形dp)
  3. 解决引入 lombok 注解不生效
  4. Linux16.04配置CUDA8.0+CUDNNV5.1
  5. 游戏开发-从零开始 002
  6. CF1543C. Need for Pink Slips
  7. 影响中国历史的十篇政治美文
  8. python爬虫淘宝评论_Python爬取淘宝店铺和评论
  9. #define c# 报错_#define 预处理指令(C++,C#,VB.NET)
  10. JavaScript 精度问题以及JavaScript 浮点数陷阱及解决方案
  11. Cesium:加载百度地图
  12. hibernate教程笔记2
  13. Linux安装mysql5.7.35
  14. SQL知识(浓缩版)快速入门(基础语法、概念)
  15. VS2019离线安装方法
  16. Eclipse Spring Tool Suite常用配置
  17. LED产品认证和检测
  18. parted如何将磁盘所有空间格式化_磁盘-使用parted格式化大容量数据盘
  19. 国美在线php面试题,国美销售专员的面试考题
  20. 设备状态监测及故障预警,你了解多少?

热门文章

  1. iphone禁止 iOS 系统频繁提示更新tvos.mobileconfig下载
  2. 企业内部即时通讯工具WorkPlus,支持内网私有化部署
  3. 【4G通讯模组相关】 TCPIP连接本地电脑测试 、内网穿透
  4. C语言malloc函数详解
  5. 【竞赛笔记】飞思卡尔智能车竞赛
  6. 医学系统(一)医院常用的软件系统:PACS系统、HIS系统、RIS系统、LIS系统、CIS系统
  7. CentOS mysql配置主从复制
  8. async function
  9. xml配置service服务器文件路径,xml配置service服务器文件路径
  10. springboot实现微信公众号群发消息功能