我和你一样走在同一条路上,甚至还有更复杂的任务.

在尝试了所有的东西之后,我最终在Mono下使用C#(因此它在linux上运行)使用了iTextSharp.

即使有一个非常完整的库,如iTextSharp,一些任务需要分配试错:)

要从页面中提取文本很容易(请查看下面的修剪器),但是如果您打算保留文本坐标,字体和大小,则还有更多工作要做.

int pdf_page = 5;

string page_text = "";

PdfReader reader = new PdfReader("path/to/pdf/file.pdf");

PRTokeniser token = new PRTokeniser(reader.GetPageContent(pdf_page));

while(token.NextToken())

{

if(token.TokenType == PRTokeniser.TokType.STRING)

{

page_text += token.StringValue;

}

else if(token.StringValue == "Tj")

{

page_text += " ";

}

}

在所有标记上执行Console.WriteLine(token.StringValue),以查看文本段落在PDF中的结构.这样你就可以检测坐标,字体,字体大小等.

加成:

鉴于您需要完成的任务,我有一个建议:

使用坐标和字体系列和大小提取文本 – 有关每个段落的所有信息.然后,对于PDF到图像,在您的在线查看器中,在需要的图像上的段落上应用不可见的可选文本.

这样,您的用户可以根据需要选择文本的一部分,而无需在html中重建整个PDF

总结

如果觉得编程之家网站内容还不错,欢迎将编程之家网站推荐给程序员好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。

php 获取pdf 坐标,php – 如何从pdf中提取文本图层和背景图层?相关推荐

  1. python简历数据提取_如何使用pyPDF2从PDF格式的多页简历中提取文本数据?

    我从PDF格式的多页简历中提取文本内容,并尝试使用pyPDF2将内容写入文本文件.但是我在尝试写内容时收到了以下错误消息.在 这是我的代码:import PyPDF2 newFile = open(' ...

  2. 【教程】PDF开发工具Spire.PDF 教程:使用C#从PDF中的特定矩形区域中提取文本

    Spire.PDF 是一个专业的PDF组件,能够独立地创建.编写.编辑.操作和阅读PDF文件,支持 .NET.WPF和Silverlight三个版本,本文介绍了如何通过Spire.PDF使用C#从PD ...

  3. linux中将文本中的单词换掉的指令_为什么说从PDF中提取文本是一件困难的事?...

    PDF文档处理工作中,总是绕不开对文本提取的需求.很多用户觉得我们PDFlux好用,所以对其中的底层技术也非常感兴趣.也有人为认为,从PDF里抽取文本段落和表格,应该非常简单! 近期,我们会对PDF文 ...

  4. java 取pdf 文本域_java – 使用iText从pdf文件中提取文本列

    我需要使用iText从pdf文件中提取文本. 问题是:一些pdf文件包含2列,当我提取文本时,我得到一个文本文件,其中列被合并为结果(即同一行中两列的文本) 这是代码: public class pd ...

  5. python自动翻译pdf_python实现从pdf文件中提取文本,并自动翻译的方法

    针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...

  6. python用来自动修改pdf_python实现从pdf文件中提取文本,并自动翻译的方法

    针对Python 3.5.2 测试 首先安装两个包: $ pip install googletrans $ pip install pdfminer3k googletrans会提供一个命令tran ...

  7. java pdfbox 提取pdf 标题_java – 使用pdfbox从PDF文件中提取文本

    我试图使用pdfbox从PDF文件中提取文本,但不是作为命令行工具,而是在我的 Java应用程序中.我正在使用jsoup下载pdf. res = Jsoup .connect(host+action) ...

  8. html 提取pdf,使用PDF.js从PDF中提取文本(2019)

    正如标题所说,我正在尝试使用由Mozilla维护的PDF.js从PDF中提取文本.我知道前面关于stackoverflow的问题,但我不知道从哪里开始. 我试着跟着这个 article 这件事我需要帮 ...

  9. android提取pdf中文字,使用iTextG從Android上的pdf文件中提取文本

    當我試圖從SD卡中讀取pdf文件並從中提取文本時,什麼也沒有發生. 沒有錯誤,沒有警告,通知,也沒有結果文件. 我將源文件和結果都存儲在設備的SD卡的根文件夾中. 你們能幫我解決這個問題嗎? 這裏是我 ...

最新文章

  1. 10个随机数相加等于100
  2. MySQL Basic Learning (一)
  3. 全球及中国N95级医用防护口罩市场销售规模与产量需求预测报告2022版
  4. dev chartcontrol获取x y轴的值_终于,奔驰强势接手了腾势X
  5. 2013\National _C_C++_B\1.猜灯谜
  6. HTTP缓存与Spring示例
  7. 布隆过滤器的原理、应用场景和源码分析实现
  8. python批量分析表格_Python统计分析execl文件列表值的方法
  9. 安卓系统怎么安装软件_「软件」怎么在虚拟机里安装系统
  10. wordpress 数据库详解
  11. 【bzoj4530】[Bjoi2014]大融合 LCT维护子树信息
  12. 团队-科学计算器-开发环境搭建过程
  13. 如何零代码制作日报、周报管理系统?
  14. c语言图书管理系统登录系统,C语言图书管理系统设计代码.doc
  15. 工厂管理系统(java web前端和后端)
  16. a标签去掉下划线,html,超链接去掉下划线
  17. 我的测试入门——需求分析与用例编写
  18. qemu: usb存储设备仿真
  19. ble mac地址 协议_BLE(bluetooth low energy)协议栈介绍
  20. 学习与尝试 --> 事件风暴

热门文章

  1. verilog中task、function和moudle的区别
  2. jira是干什么_JIRA简介
  3. 苏州新导RFID资产管理系统的出现,为企业资产追踪管理带来了希望
  4. 小米盒子4用u盘导入html文件格式,小米盒子4应用装到U盘上,该怎么做?
  5. Tableau-面积图
  6. Vue scss报错
  7. 微信H5视频抓娃娃,没你想的那么难,看完你也会
  8. vue axios跨域 Request Method: OPTIONS问题
  9. pandas处理to_csv后excel打开乱码
  10. 阶段复盘与总结(一)