最近从pdf文件中拷贝论文标题的时候,发现标题中的‘f’复制出来是乱码,情况如下,复制这篇论文的标题,得到
字母ff变成了乱码。奇怪的是,论文中别处的字母f有能正常显示的,个别组合,如fi也不能正常显示。

原因在于,这样的字母组合就是所谓的连写,ligatures。如果尝试选择连写字母,会发现他们仅仅只是一个字母(可以理解为一种符号,或者一种特殊的图片),因此经常在拷贝的过程中出错(仅想得到text的话)。

参考

  1. https://stackoverflow.com/questions/20535452/why-letter-f-oftentimes-cannot-be-copied-from-text-in-pdf-files

为什么有时候字母'f'不能从pdf文件中拷贝出来相关推荐

  1. python 从PDF文件中读取书签/目录

    python 从PDF文件中读取书签/目录 代码介绍 需要使用到的函数 代码部分 有时候需要将PDF文件中的书签读取出来进行处理,因此写这篇博客记录具体的处理过程(某些pdf文件会出现打不开报错的情况 ...

  2. java pdf添加透明水印_如何在PDF文件中添加透明水印

    原标题:如何在PDF文件中添加透明水印 有些文件添加水印,但是又不想水印影响文件的使用有时候会设置透明水印,那么PDF怎么设置透明水印呢,应该有很多的小伙伴们都很好奇应该怎么做吧,接下来就为大家分享一 ...

  3. gnuradio上怎么使用python文件_使用Python从PDF文件中提取数据

    前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...

  4. 使用Python从PDF文件中提取数据

    前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...

  5. vscode中打开pdf文件_提取pdf文件中的文字

    环境说明 windows10系统 python3.6版本 安装 网上很多说需要安装pdfminer3k和pdfminer3k.six,我尝试了先安装pdfminer3k后安装pdfminer3k.si ...

  6. python自动翻译pdf_python实现从pdf文件中提取文本,并自动翻译的方法

    针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...

  7. python怎么读取pdf为文本_如何从pdf文件中提取特定文本python

    我试图摘录这段文字:DLA LAND AND MARITIME ACTIVE DEVICES DIVISION PO BOX 3990 COLUMBUS OH 43218-3990 USA Name: ...

  8. php对pdf关键字定位,如何在PDF文件中快速查找关键字

    有时候我们在阅读和编辑PDF文章时需要对PDF文件里的重要关键词进行查找,但如果PDF文章内容过长,怎么才能快速查找出想要查找的关键字? 想要在PDF文件中快速查找出关键字,那么利用迅捷PDF编辑器进 ...

  9. python用来自动修改pdf_python实现从pdf文件中提取文本,并自动翻译的方法

    针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...

  10. 手把手教你如何用Python从PDF文件中导出数据(附链接)

    作者:Mike Driscoll :翻译:季洋:校对:丁楠雅 本文约4000字,建议阅读10分钟. 本文介绍了在提取出想要的数据之后,如何将数据导出成其他格式的方法. 有很多时候你会想用Python从 ...

最新文章

  1. 查看linux主机是否安装宋体码,Linux 安装宋体字体的简单办法
  2. HttpClient的一种简单实现Demo
  3. 与计算机硬件相关的英语作文,计算机和计算硬件,computer and computing hardware,音标,读音,翻译,英文例句,英语词典...
  4. java怎么做简易的游戏,Java小项目之《简易桌面小游戏》
  5. Linux服务器Cache占用过多内存导致系统内存不足问题的排查解决
  6. Eclipse 高亮显示
  7. oracle12c多个pdb,Oracle 12c 多租户专题|12cR2中PDB内存资源管理
  8. C# WinForm获取 当前执行程序路径的几种方法
  9. 项目进度管理:规划项目进度管理
  10. 关注书籍和教程(更新中)
  11. python是否安装oracle接口,python安装oracle扩展及数据库连接方法
  12. 鼠标图标怎么自定义_酷鱼魔鼠——给鼠标添加酷炫的特效
  13. 第三章-电商项目-优化评论分页查询
  14. 第三章 MongoDb Java应用 3.1
  15. jquery ui accordion的详细参数
  16. 最最简单的一个爬虫代码
  17. 算法设计与分析(第2版)屈婉玲 刘田 张立昂 王捍贫编著 第一章课后习题答案
  18. 数学建模——人口预测模型
  19. 基本计算机编程术语,计算机编程术语,你记住了吗?
  20. 全球与中国滴眼液和润滑剂市场深度研究分析报告

热门文章

  1. java 分页读取数据
  2. 何为全栈工程师?你是否应该成为一名全栈工程师?
  3. 服务器系统影子系统,影子系统安装教程
  4. nvme固件升级 linux,Intel NVME SSD 固件升级步骤
  5. 关于sql语句拼接字符串变量的操作
  6. adb 命令大全(简洁明了)adb命令启动应用
  7. Matplotlib 可视化必备神书,附pdf下载
  8. List集合排序找出其中的最大和最小值
  9. 系统设计-HIPO图
  10. html5在线加密,HTML源代码在线加密解密