本文介绍了如何在PHP中使用PDFlib TET提取PDF中的文本:

/* 全局参数表*/

$globaloptlist = "searchpath=../../../resource/cmap";

/* 文档参数表 */

$docoptlist = "";

/* 页面参数表 */

$pageoptlist = "granularity=page";

$infile = $_GET['infile'];

/* 将提取出的文本以UTF-8 编码传送的浏览器 */

header("Content-type: text/html; charset=UTF-8");

print("

");

$tet = TET_new();

if ($infile == "")

{

die("usage: add ?infile=filename.pdf to the URL/n");

}

TET_set_option($tet, $globaloptlist);

$doc = TET_open_document($tet, $infile, $docoptlist);

if ($doc == -1)

{

die("Error ". TET_get_errnum($tet) . " in " . TET_get_apiname($tet)

. "(): " . TET_get_errmsg($tet) . "/n");

}

/* 获取文档的页数*/

$n_pages = TET_pcos_get_number($tet, $doc, "length:pages");

for ($pageno = 1; $pageno <= $n_pages; ++$pageno) /* 逐页循环*/

{

$page = TET_open_page($tet, $doc, $pageno, $pageoptlist);

if ($page == -1)

{

print("Error " . TET_get_errnum($tet) . "in " .

TET_get_apiname($tet) . "() on page " . $pageno . ": " . TET_get_errmsg($tet) . "/n");

continue;

}

/* 提取所有的文本段 */

while (($text = TET_get_text($tet, $page)) != "")

{

/* 遍历所有字符*/

while (($ci = TET_get_char_info($tet, $page)))

{

/* 提取字体名称;字符位置可以通过ci->x和ci->y取得*/

$fontname = TET_pcos_get_string($tet, $doc,"fonts[" . $ci->fontid . "]/name");

}

print($text);

}

if (TET_get_errnum($tet) != 0)

{

print("Error " . TET_get_errnum($tet) . " in " . TET_get_apiname($tet) . " on page " . $pageno . ": " . TET_get_errmsg($tet) . "/n");

}

TET_close_page($tet, $page);

print("/n

"); /* add a delimiter between each zone */

}

print("

");

TET_close_document($tet, $doc);

TET_delete($tet);

?>

标签:

本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,尊重他人劳动成果

php取tet文件内容,PHP中使用PDFlib TET提取PDF中的文本相关推荐

  1. python提取pdf中的图片_提取PDF中内容(表格篇)

    由于(质量优质)PDF较好的阅读性,工作当中难免有文件使用PDF格式保存和流通的.但是由于PDF过于追求视觉的享受,所以在编辑其内容元素上相较微软office系列的确困难.不时会碰到看的到内容却难以直 ...

  2. python提取pdf文件内容_如何用Python批量提取PDF文本内容?

    本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分析. 问题 最近,读者们在后台的留言,愈发五花八门了. 写了几篇关于自然语言处理的文章 ...

  3. 怎么提取pdf中的表格数据_如何从pdf第1部分中提取表格数据

    怎么提取pdf中的表格数据 In this article, we talk about the challenges and principles of extracting tabular dat ...

  4. Spring Boot 提取pdf中的文字

    Spring Boot 提取pdf中的文字 提取pdf中的文字,由于字体不同,可能会提取出来乱码.(友情提示:建议先pdf文件转成图片,然后调用百度api提取文字,准确率高.跳转链接:https:// ...

  5. Java 添加、提取PDF中的图片

    Spire.Cloud.SDK for Java提供了PdfImagesApi接口可用于添加图片到PDF文档addImage().提取PDF中的图片extractImages(),具体操作步骤和Jav ...

  6. 怎么提取pdf中的某一页?试试这三种提取办法

    怎么提取pdf中的某一页?在我们日常办公和学习中,经常会遇到需要提取 PDF 文件中的某一页的情况.比如需要转发文件中的某一页给同事或朋友,或者需要将文件中的某一页用作资料整理.此时,提取 PDF 中 ...

  7. 通过Python的pdfplumber库提取pdf中表格数据

    文章目录 前言 一.pdfplumber库是什么? 二.安装pdfplumber库 三.查看pdfplumber库版本 四.提取pdf中表格数据 1.引入库 2.定义pdf文件路径 3.打开pdf文件 ...

  8. Python提取PDF中的文字和图片

    一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) ...

  9. 如何提取pdf中的某一页?

    如何提取pdf中的某一页?为什么pdf文件越来越受到大家的喜欢呢?主要原因是pdf文件更加的稳定,不能被随意的修改编辑,正是由于这个原因也导致了pdf文件使用起来有些不方便.例如我想提取pdf文件的某 ...

最新文章

  1. 用tar来备份Ubuntu操作系统
  2. 解决UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe5 in position 108: ordinal not in range(12
  3. [转载]Token原理以及应用
  4. 犯人释放的C语言程序,C语言的自动关机程序和一个用来整人的小程序
  5. 你不了解PHP的10件事情!
  6. ajax返回失败原因,ajax POST请求返回失败
  7. 产品经理该如何做竞品分析
  8. ASP.NET MVC 3 Preview1发布
  9. 【SpringMVC】@Controller 和 @RestController 区别
  10. SQL Server 何时将“脏页”回写到硬盘
  11. java学生成绩管理系统文库,基于JAVA的学生成绩管理系统的设计与实现
  12. nodejs tinypng 压缩
  13. Android音视频——H265编码核心技术解析
  14. 惠普136w耗材贵吗_不妨试一试:惠普打印机136w与m30w哪个好?有没有区别?到底坑不坑?...
  15. Delphi2010启动报错cannot create file C:Users\ADMINI~1\AppDat...\EditorLineEnds.ttr
  16. 互联网大厂轮流买单,春晚红包却不再“药到病除”?
  17. vue调取电脑摄像头实现拍照功能
  18. 架构扫盲|四种常见的软件架构
  19. 刚入门学3D游戏美术设计最常见的几个问题
  20. C Primer Plus 学习打卡之第二章(含课后编程答案)

热门文章

  1. 终于等到了!十位Java架构师整理的“阿里P7”养成计划
  2. 信捷触摸屏通讯示例1
  3. Windows 远程桌面连接方法及远程桌面控制软件推荐
  4. Android应用防xposed注入,android hook 框架 xposed 如何实现注入
  5. 双网卡设置一个外网一个内网_双网卡同时上网,内网外网同时启用的解放办法...
  6. 西班牙语dele等级_DELE——西班牙语水平考试
  7. SkeyeExPlayer(Windows)开发系列之解决ffmpeg接口调用卡住的问题
  8. PNG怎么转换成PDF?这篇文章教会你
  9. 用Win10中自带的CHKDSK来扫描和修复硬盘
  10. 钟站壤赴梅拱厩沼泊叶